爬虫报错，刷新过于频繁。不知如何解决。

代码如下，报错为第14行：

from selenium import webdriver
import time
global pages#全局变量。如果可以的话希望能换个地方呆着。全局变量的写法，先后顺序
pages=set()#一万个页面的储存体
driver = webdriver.Chrome()
driver.get('https://snail.baidu.com/ndyanbao/browse/index#/search')
#print(driver.current_url)#打印当前的url
time.sleep(5)
i=0
while i < 1000:
  i=i+1
  elements = driver.find_elements_by_class_name('report-title')  # 第一层的标题的按钮
  for element in elements:
    element.click()#可以先把链接存起来，也可以直接开始：它本身的文本内容以及页面内的其他文章链接
    time.sleep(30)
    hand = driver.window_handles  # 获取当前的所有句柄
    driver.switch_to.window(hand[1])   # 转换窗口至最高的句柄
    time.sleep(30)
    LD=driver.find_elements_by_class_name('btn login-btn')#登录观看
    if LD is True:
      LD = driver.find_elements_by_class_name('btn login-btn')  # 登录观看
      ld=LD[0]
      ld.click()
      yhm = driver.find_elements_by_css_selector('#TANGRAM__PSP_11__footerULoginBtn')  # 用户名登录
      yhmd = yhm[0]
      yhmd.click()
      yh = driver.find_elements_by_css_selector('#TANGRAM__PSP_11__userName')  # 用户名
      yh = yh[0]
      yh.send_keys('用户名')
      mm = driver.find_elements_by_css_selector('#TANGRAM__PSP_11__password')  # 密码
      mm = mm[0]
      mm.send_keys('密码')
      dl = driver.find_elements_by_css_selector('#TANGRAM__PSP_11__submit')  # 点击登录按钮
      dl = dl[0]
      dl.click()
      time.sleep(10)
      xt = driver.find_elements_by_class_name('reader-word-layer')  # 爬取文章内容#加入百度文库4的代码
      xt2 = [str(i.text) for i in xt]
      print(''.join(xt2))  # 后期改为TXT。join列表方法
      wz = driver.current_url  # 当前的url
      pages.add(wz)  # 将第一层的10000个页面全部存进pages中
      time.sleep(5)
      # driver.quit()
    else:
      xt = driver.find_elements_by_class_name('reader-word-layer')  # 爬取文章内容#加入百度文库4的代码
      xt2 = [str(i.text) for i in xt]
      print(''.join(xt2))#后期改为TXT。join列表方法
      wz = driver.current_url  # 当前的url
      pages.add(wz)#将第一层的10000个页面全部存进pages中
      time.sleep(5)
      #driver.quit()
  nps= driver.find_elements_by_class_name('el-icon.el-icon-arrow-right')  #下一页按钮
  for np in nps:
    nps.click()
else:
    for page in pages:#第一层以及后边几层的网址
      driver.get('page')
      qts=driver.find_elements_by_class_name('doc-title')#当前页面中含有的的其他文本的按钮.准备进入第二层
      for qt in qts:#当前页面内可操作的文本标题
        qt.click()#之后要在其他页面上重复操作。进入第二层
        hand = driver.window_handles  # 获取当前的所有句柄
        driver.switch_to.window(hand[1])  # 转换窗口至最高的句柄
        ht = driver.current_url#获得他们的URL
        time.sleep(30)
        LD = driver.find_elements_by_class_name('btn login-btn')  # 登录观看
        if LD is True:
          LD = driver.find_elements_by_class_name('btn login-btn')  # 登录观看
          ld = LD[0]
          ld.click()
          yhm = driver.find_elements_by_css_selector('#TANGRAM__PSP_11__footerULoginBtn')  # 用户名登录
          yhmd = yhm[0]
          yhmd.click()
          yh = driver.find_elements_by_css_selector('#TANGRAM__PSP_11__userName')  # 用户名
          yh = yh[0]
          yh.send_keys('用户名')
          mm = driver.find_elements_by_css_selector('#TANGRAM__PSP_11__password')  # 密码
          mm = mm[0]
          mm.send_keys('密码')
          dl = driver.find_elements_by_css_selector('#TANGRAM__PSP_11__submit')  # 点击登录按钮
          dl = dl[0]
          dl.click()
          time.sleep(10)
          xt = driver.find_elements_by_class_name('reader-word-layer')  # 爬取文章内容#加入百度文库4的代码
          xt2 = [str(i.text) for i in xt]
          print(''.join(xt2))  # 后期改为TXT。join列表方法
          wz = driver.current_url  # 当前的url
          pages.add(wz)  # 将第一层的10000个页面全部存进pages中
          time.sleep(5)
          # driver.quit()
        else:
          xt = driver.find_elements_by_class_name('reader-word-layer')  # 爬取文章内容.#加入百度文库4的代码
          xt2 = [str(i.text) for i in xt]
          print(''.join(xt2))
          if ht not in pages:
            pages.add(ht)
          driver.quit()

报错：

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
江天暮雪丨 2021-10-23 16:03
关注
错误的信息大概意思是：你要点击的元素没有被挂载在dom树中(页面上)
大概看了一下你的代码：首先这个问题是因为你在切换窗口后，没有切换回到起始的窗口。
elements = driver.find_elements_by_class_name('report-title')
这个列表中的元素都是在起始窗口中的，所以当你检索完文档页面的信息后，需要切换回到起始页面，然后点击查看下一个文档，并且在此之前，你可以关闭这个文档页面，因为你要进入下一个文档页面了，这个页面肯定不用了。
另外，切换到最高句柄的窗口应该是 -1 ： driver.switch_to.window(hand[-1])

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

已解决Python爬虫报错＜Response [403]＞
2022-11-11 21:13

小满大王i的博客已解决Python爬虫报错[403]＞
python爬虫常见报错_Python爬虫系列之什么是爬虫
2020-11-28 12:43

weixin_39640883的博客时间过的总是那么快，特别是对于一个有拖延症的人来说，例如我...早就想出一个关于爬虫的系列教程，但总是被自己的拖延症和一系列的...本人就是一枚从事python开发的程序猿，目前因为个人的私事原因不得不弃业置家...
Python爬虫：打开数据世界的魔法钥匙
2025-03-02 22:37

大雨淅淅的博客 Python 拥有丰富的库，这简直是爬虫开发者的宝藏库。比如，当我们需要发送 HTTP 请求获取网页内容时，Requests 库就像一位高效的信使，只需简单的几行代码，就能轻松地与服务器进行通信，获取我们想要的网页数据。...
python爬虫
2021-12-21 10:59

码智的博客一、requests模块 1 requests模块介绍 ...requests是第三方类库，需要你在python（虚拟）环境中额外安装 pip/pip3 install requests ③requests入门 # 导入requests模块 import requests # 目标url url = "https:/
如何让Python爬虫在遇到异常时继续运行
2024-07-18 10:47

亿牛云爬虫专家的博客在数据收集和数据挖掘中，爬虫技术是一...本文将概述如何使用Python编写一个健壮的爬虫，确保其在遇到异常时能够继续运行。我们将通过使用try/except语句处理异常，结合代理IP技术和多线程技术，以提高爬虫的采集效率。
初学者如何用 Python 写第一个爬虫？
2025-05-16 15:08

长风清留扬的博客也许在这个过程中，你遇到了一些挑战，比如代码报错、数据提取不准确，但请相信，每一次解决问题都是一次成长。学会 Python 之后，你的世界将变得更加广阔。在数据领域，你可以轻松地从互联网上收集大量数据，进行...
Python 爬虫实战：简易爬取知乎回答内容
2026-01-13 12:45

python 爬虫工程师的博客本文详细介绍了使用Python爬取知乎回答内容的实战方法。通过分析知乎异步加载API接口，讲解如何构建带反爬策略的爬虫代码，包括请求头设置、JSON数据解析和内容清洗等核心步骤。文章提供了完整可运行的代码示例，并...
Python 爬虫实战：爬取今日头条图文标题
2026-01-13 12:40

python 爬虫工程师的博客本文详细介绍了使用Python爬取今日头条图文标题的完整流程。针对今日头条的动态渲染特性，采用requests库结合json解析技术，避免了复杂的JS渲染解析过程。文章包含环境搭建、API接口分析、核心代码实现（含反爬策略...
python爬虫之request库的使用（友好版）
2023-05-23 17:26

i鲸落i的博客 1，Requests是一个Python中的HTTP库，用于向Web服务器发送HTTP请求并获取响应。Requests库的使用方式与urllib库类似，但更加简单和灵活。Requests库支持HTTPS请求，并且可以自动处理cookies和会话，使得操作更加方便...
python爬虫---selenium模块
2024-09-21 19:43

Justinc.的博客 wd.find_element(By.XPATH, "//*[contains(text(),'排行榜')]").click() # 点击并进行跳转操作我们发现直接使用上面的程序进行获取会报错，这是因为浏览器的加载需要时间，程序没有等待而是直接获取元素，这就导致...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 10月31日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 10月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 10月23日
展开全部

爬虫报错，刷新过于频繁。不知如何解决。

1条回答 默认 最新

问题事件

1条回答默认最新