球球你们 2023-02-19 12:06 采纳率: 0%
浏览 70

python使用 urllib返回的信息不全,无法获取div文本内容

遇到的问题:
尝试爬取网站的相关数据,结果返回的页面信息不完整,导致无法获取div里标签的内容,主要是div里折叠的内容无法返回。
我这部分的代码如下:

edit2 = wait.until(EC.presence_of_element_located(
    (By.CSS_SELECTOR, ".index-date-range-picker > button > span")))
edit2.click()

wait1 = WebDriverWait(browser, 360)
edit3 = wait1.until(EC.presence_of_element_located(
    (By.CSS_SELECTOR, ".date-panel")))
time.sleep(1)

edit3.click()

html_doc = browser.current_url  # 获取当前页面url

header = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36"}
req = urllib.request.Request(html_doc, headers=header)
webpage = urllib.request.urlopen(req, timeout=1)
html = webpage.read()
soup = BeautifulSoup(html, 'html.parser')  # 文档对象

# 类名为xxx而且文本内容为 hahaha 的div

print(type(soup))
print(soup)

我做过的尝试:
尝试去获取requst url,都不行
希望实现的效果:
获取完整的返回信息,然后就可以获取其中我需要的标签信息了。

  • 写回答

2条回答 默认 最新

  • cjh4312 2023-02-19 13:14
    关注

    啥网站啊。不过你这够奇怪的,用了selenium了然后又用urllib去请求,这不是多此一举吗

    评论 编辑记录

报告相同问题?

问题事件

  • 修改了问题 2月19日
  • 创建了问题 2月19日

悬赏问题

  • ¥20 search.asp突然无法搜索,之前能搜索
  • ¥15 c#如何使用scottplot给已画好的自定义热度图,增加一个一定的colorbar
  • ¥15 信贷平台.用户信用评估和风险评估怎么做,希望来个做过的Java.有合作的机会
  • ¥15 IMageEN获得图形顶点坐标的问题
  • ¥50 软件PC客户端抓包,获取http请求和响应
  • ¥15 手机被安装黑客软件怎么办?
  • ¥15 Windows C++ PaddleOcr 中文模型的训练方法
  • ¥15 c# 用scottplot画 以时间为纵坐标,数值为横坐标画曲线图
  • ¥15 手机应用程序安装异常
  • ¥15 grbl的G92修改MPos的问题。