#python爬虫问题#

工作中需要获取各招标网站的信息，尝试用python进行抓取。
过程中，遇到1个招标网站（https://ec.chng.com.cn/ecmall/more.do?type=103）抓取不了，试了用requests请求和Selenium模拟浏览器操作。求帮忙，谢谢

requests请求：

import requests
from lxml import etree

# 爬取函数
def get_zb_info(url,header,pama):
    response = requests.get(url=url, headers=header, params=pama)
    response.encoding = 'utf-8'
    wb_data = response.text
    print('抓取到以下内容：', wb_data)

    # 开始数据解析。。。

if __name__ == '__main__':
    url = 'https://ec.chng.com.cn/ecmall/more.do'
    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
        'Accept-Encoding': 'gzip, deflate, br, zstd',
        'Accept-Language': 'zh-CN,zh;q=0.9',
        'Cookie': 'S6J51OuUjLieO=5AjWEiOna9Nm3YKgPv7rcuukAiPK8d8Xh1p..nidvUaptoBbPw.whSm2JGJQq.xgMMJH_Ysv9oJnwB.YKOuKiLA; S6J51OuUjLieP=cpu.dPoowrPlOqm3LaFqcgf4QPxNoMp0OqfGvHpahI1KoiImS7cEs3EP6tZpIppclExhsnhNKyZ51Vg3aRbpw1295vGOn0UIOCnz1Ok9tpX2VIDar9byqvoAeU56pyD1pSZufzyTThSS6Mr7IHSs4b2ab_CTkDB.cmsVLWJE0TqRrWOOsxHdQ.a6Pjs6NjlOmST.99_GdzxLZW1nM2GlnkrzZQVvl6yryzK1GS43r67',
        # Cookie的值是在真实浏览器访问“https://ec.chng.com.cn/ecmall/more.do?type=103”，然后按F12，从请求头里复制的
        # 粘贴到此后可正确抓取到招标信息，但仅短暂有效。
    }

    pama = {
        'type': 103
    }
    get_zb_info(url, header, pama)

Selenium模拟浏览器操作：

import time,os
#引入selenium库中的webdriver模块，实现对网页的操作
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.keys import Keys  # 模拟键盘输入


url = u'https://ec.chng.com.cn/ecmall/more.do?type=103'
#url = u'https://bot.sannysoft.com/'

#创建浏览器对象-谷歌浏览器
options = webdriver.ChromeOptions()
#options = webdriver.EdgeOptions()

driver = webdriver.Edge(options=options)
# 隐藏浏览器指纹
#'''
with open('stealth.min.js') as f:
   js = f.read()
driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
    "source": js
})
#'''


#防止网站检测selenium的webdriver  undefined   false
driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
   "source": """
        Object.defineProperty(navigator, 'webdriver', {
            get: () => false
        })
    """
})

driver.implicitly_wait(3)

#打开网页
print('准备打开网址')
driver.get(url)
print(f'已打开网址：{url}')

time.sleep(2)
print(f'当前页面title：{driver.title}')
print(f'当前页内容：{str(driver.page_source)}')

# 关闭当前浏览器页面、退出
driver.close()
driver.quit()

Selenium模拟浏览器操作，一直显示空白网页：

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-皆知 2024-05-01 12:12
关注
参考免费微信小程序：皆我百晓生 作答，经由专家-皆知整理回复，如问题解决，望采纳；如仍有疑问，请评论回复。

针对您遇到的问题，这个网站可能使用了一些动态加载技术，比如AJAX，或者对请求有更严格的检查，导致直接使用requests或者简单的Selenium配置无法获取数据。此外，网站也可能对爬虫行为进行了检测。下面我会提供一种可能的解决方案，主要集中在优化Selenium的使用上，确保它能更好地模仿正常用户的行为。

解决方案：优化Selenium配置与等待策略

隐式等待与显式等待结合：隐式等待可以帮助在查找元素时有一定的时间余地，而显式等待可以针对特定条件等待，直到条件满足或达到最大等待时间。

模拟滚动加载：如果数据是通过滚动加载的，我们需要模拟用户的滚动行为来触发数据加载。

处理Cookies：直接注入Cookies可能因为网站的会话管理机制而失效，但可以通过登录流程解决或检查是否有长期有效的API访问方式。

修改后的Selenium代码示例

from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC import time url = 'https://ec.chng.com.cn/ecmall/more.do?type=103' options = webdriver.EdgeOptions() # 隐身模式可能有助于绕过一些检测 options.add_argument('incognito') # 如果需要，这里可以添加更多配置来模拟真实浏览器行为 driver = webdriver.Edge(options=options) # 加载页面后，等待页面元素加载 driver.get(url) WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.TAG_NAME, 'body'))) # 模拟滚动加载（假设数据是通过滚动加载的） last_height = driver.execute_script("return document.body.scrollHeight") while True: driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") time.sleep(2) # 给服务器时间响应 new_height = driver.execute_script("return document.body.scrollHeight") if new_height == last_height: break last_height = new_height # 现在页面应该已经加载了所有通过滚动加载的数据 print(f'当前页内容：{driver.page_source}') # 之后可以根据页面结构提取数据 # 关闭浏览器 driver.quit()

请注意，实际应用中可能需要根据网站的具体实现调整策略。例如，如果数据加载依赖于JavaScript事件而非滚动，您可能需要监听或触发那些特定事件。此外，考虑到隐私和法律因素，确保您的爬虫行为符合网站的robots.txt规则和服务条款。如果网站提供了API，使用API通常是更稳定和合法的选择。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

关于#Python爬虫#的问题 python
2023-01-25 08:46

回答 3 已采纳您遇到的错误是由于 urllib3 库版本不匹配导致的。在这种情况下，您可以尝试升级或降级 urllib3 库的版本来解决问题。另外，在代码中使用 'requests' 和 'lxml' 两个库进行
关于#python#的问题：python爬虫爬取百度图片 python 有问必答爬虫
2021-11-27 22:00

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
python爬虫问题求解 python 爬虫
2022-04-29 11:12

回答 1 已采纳我给你改了一下，你对比看看吧： from bs4 import BeautifulSoup import pandas as pd import requests def crawer_travel
Python 爬虫基础网络爬虫、数据采集、Python编程、数据处理
2023-08-12 18:32

资源描述：这个资源是关于Python爬虫基础的教程，旨在帮助初学者掌握如何使用Python编程语言构建简单的网络爬虫，从网页中抓取数据，并进行基本的数据处理和存储。内容概要：教程涵盖了Python爬虫的基本概念、...
关于#python#的问题：python爬虫发送请求时添加cookie过长导致报错 python 爬虫
2022-08-25 15:41

回答 3 已采纳这并不是过长导致的，这是格式错误，参考下面步骤，不用一个一个手写参数，直接生成所有请求参数代码就不会报这种错误了：浏览器抓包找到该请求，右键复制-->以cULR格式复制到https://spi
关于#python#的问题，帮写爬虫 python
2023-01-31 09:35

回答 8 已采纳马上写
如何解决python爬虫问题？ python 人工智能爬虫
2022-08-15 09:11

回答 1 已采纳应该是css选择器里面的规则不够明确，可改成href = selectors.css('div.container div div div ul li a::attr(href)').getall()
Python爬虫是一种使用Python编程语言来自动化获取网页数据的技术这项技术主要涉及到向目标服务器发送请求，获取HTML页
2024-05-02 14:49

Python爬虫是一种利用Python编程语言实现自动化的网页数据抓取技术。它的工作原理主要包括以下几个步骤：首先向目标服务器发送HTTP请求；接着获取服务器返回的HTML页面内容；然后对HTML进行解析以提取所需的数据。...
python爬虫问题 python 爬虫
2022-10-09 11:41

回答 2 已采纳
关于#python#的问题：python编程，程序的控制结构 python
2022-07-01 19:44

回答 1 已采纳 split()方法返回的是分割后的列表，所以第一题里 a = ['a', 'b', 'c', 'd']，再通过循环将元素并排打印出来第二题里的 a = ['1', '2', '3']，注意input(
关于#python#的问题：字典键值对 python 爬虫
2022-08-07 16:21

回答 2 已采纳 text改成json()
python爬虫-Day14 网络编程入门和网络应用开发.rar
2024-08-29 09:11

python爬虫-Day14 网络编程入门和网络应用开发.rar
关于#python#的问题：用python编写爬虫程序，将文字和图像等信息抓取到sqlite中保存 python
2022-06-04 10:47

回答 1 已采纳 import sqlite3 import re import requests from lxml import html findlink = re.compile(r'<a href=
python爬虫教程从入门到精通
2023-08-16 03:15

### Python爬虫教程知识点概述 #### 一、课程导学（第01章） - **章节目标**：介绍Python爬虫的基本概念和发展历程。 - **主要内容**： - Python爬虫的发展背景及其重要性。 - 爬虫在实际工作中的应用案例分享。 ...
python爬虫.docx
2024-07-02 10:48

Python 是一种高级、通用、解释型编程语言，自1989年由 Guido van Rossum 创建以来，因其简单易学、功能强大和灵活多样的特性，在全球范围内广受欢迎。Python 的设计哲学强调代码的可读性和简洁性，这使得即使是编程...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月1日

悬赏问题

¥15 数据库原理及应用上机练习题
¥15 征集Python提取PDF文字属性的代码
¥15 如何联系真正的开发者而非公司
¥15 有偿求苍穹外卖环境配置
¥15 代码在keil5里变成了这样怎么办啊，文件图像也变了，
¥20 Ue4.26打包win64bit报错，如何解决？(语言-c++)
¥15 clousx6整点报时指令怎么写
¥30 远程帮我安装软件及库文件
¥15 关于#自动化#的问题：如何通过电脑控制多相机同步拍照或摄影（相机或者摄影模组数量大于60），并将所有采集的照片或视频以一定编码规则存放至规定电脑文件夹内
¥20 深信服vpn-2050这台设备如何配置才能成功联网？

#python爬虫问题#

5条回答 默认 最新

解决方案：优化Selenium配置与等待策略

修改后的Selenium代码示例

问题事件

悬赏问题

5条回答默认最新