遇到的问题:
尝试爬取网站的相关数据,结果返回的页面信息不完整,导致无法获取div里标签的内容,主要是div里折叠的内容无法返回。
我这部分的代码如下:
edit2 = wait.until(EC.presence_of_element_located(
(By.CSS_SELECTOR, ".index-date-range-picker > button > span")))
edit2.click()
wait1 = WebDriverWait(browser, 360)
edit3 = wait1.until(EC.presence_of_element_located(
(By.CSS_SELECTOR, ".date-panel")))
time.sleep(1)
edit3.click()
html_doc = browser.current_url # 获取当前页面url
header = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36"}
req = urllib.request.Request(html_doc, headers=header)
webpage = urllib.request.urlopen(req, timeout=1)
html = webpage.read()
soup = BeautifulSoup(html, 'html.parser') # 文档对象
# 类名为xxx而且文本内容为 hahaha 的div
print(type(soup))
print(soup)
我做过的尝试:
尝试去获取requst url,都不行
希望实现的效果:
获取完整的返回信息,然后就可以获取其中我需要的标签信息了。