selenium的爬虫运用

这是我按照学习教程写的爬取斗鱼主播界面的简单代码，代码如下：

from selenium import  webdriver
from selenium.webdriver.common.by import By
class Douyu():
    def __init__(self):
        self.url='https://www.douyu.com/directory/all'
        self.driver=webdriver.Chrome()
    def parse_data(self):
        self.driver.implicitly_wait(2)
        room_list=self.driver.find_elements(By.XPATH,'//*[@id="listAll"]/section[2]/div[2]/ul/li/div')


        #遍历房间列表，从每一个房间节点中获取数据

        for room in room_list:
            try:
                haha = {}
                haha['title'] = room.find_element(By.XPATH, './a/div[2]/div[1]/h3').text
                haha['type'] = room.find_element(By.XPATH, './a/div[2]/div[1]/span').text
                haha['owner'] = room.find_element(By.XPATH, './a/div[2]/div[2]/h2/div').text
                haha['num'] = room.find_element(By.XPATH, './a/div[2]/div[2]/span').text
                haha['src'] = room.find_element(By.XPATH, './a/div[1]/div[1]/picture/img').get_attribute('src')
                print(haha)
            except:
                pass
    # def save_data(self,data_list):
    #     for data in data_list:
    #         print(data)
    def run(self):
        #url
        #driver
        #get
        self.driver.get(self.url)
        self.parse_data()
if __name__ == '__main__':
    douyu=Douyu()
    douyu.run()

可是爬取出来的却是两条，有时候一条，这是怎么回事？

{'title': 'AG 0:0 狼队', 'type': '王者荣耀', 'owner': '王者荣耀官方赛事', 'num': '708.8万', 'src': 'https://rpic.douyucdn.cn/live-cover/coverupdate/2023/08/12/e112a2e164dd4657c434a4b9bb0a5f80.jpg/dy1'}
{'title': '七圣召唤主播资格赛决赛进行中！', 'type': '原神', 'owner': '丘丘人大队队长', 'num': '69.3万', 'src': 'https://rpic.douyucdn.cn/live-cover/coverupdate/2023/08/08/8c40ce9a0f97a89813f94a38ec1324f8.jpg/dy1'}

当我去掉try时，报如下错误：

selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: stale element not found
  (Session info: chrome=115.0.5790.171); For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#stale-element-reference-exception
Stacktrace:

望解决，谢谢！

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-08-12 22:38
关注
【以下回答由 GPT 生成】

根据您提供的代码，以下是我认为可以优化的几个方面：

使用显式等待代替隐式等待： 隐式等待会导致每次查找元素时都会等待固定的时间，而显式等待可以在满足某个条件时立即进行下一步操作，提高效率和可靠性。您可以使用expected_conditions模块来定义等待条件，并传递给WebDriverWait类来设置等待时间。

from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC # 在初始化方法中使用显式等待 def __init__(self): self.url = 'https://www.douyu.com/directory/all' self.driver = webdriver.Chrome() # 设置显式等待 self.wait = WebDriverWait(self.driver, 10) # 最多等待10秒 def parse_data(self): # 使用显式等待查找元素 room_list = self.wait.until(EC.visibility_of_all_elements_located((By.XPATH, '//*[@id="listAll"]/section[2]/div[2]/ul/li/div')))

使用更精确的定位方式： XPath 可以非常强大和灵活，但是也可能因为选择的路径不准确导致解析错误。在XPath路径中使用"./"表示相对路径，但如果不需要使用相对路径，可以直接省略。

data['title'] = room.find_element(By.XPATH, 'a/div[2]/div[1]/h3').text data['type'] = room.find_element(By.XPATH, 'a/div[2]/div[1]/span').text data['owner'] = room.find_element(By.XPATH, 'a/div[2]/div[2]/h2/div').text data['num'] = room.find_element(By.XPATH, 'a/div[2]/div[2]/span').text

合理利用 find_elements 方法： 您可以使用 find_elements 方法一次性查找到多个元素，然后逐个处理，以减少与浏览器的通信次数。

room_list = self.wait.until(EC.visibility_of_all_elements_located((By.XPATH, '//*[@id="listAll"]/section[2]/div[2]/ul/li/div'))) # 遍历房间列表 for room in room_list: data = {} data['title'] = room.find_element(By.XPATH, 'a/div[2]/div[1]/h3').text data['type'] = room.find_element(By.XPATH, 'a/div[2]/div[1]/span').text data['owner'] = room.find_element(By.XPATH, 'a/div[2]/div[2]/h2/div').text data['num'] = room.find_element(By.XPATH, 'a/div[2]/div[2]/span').text # 处理数据 ...

关闭 WebDriver： 在爬取完成后，记得关闭 WebDriver 以释放资源。

def __del__(self): self.driver.quit()

以上是我认为可以优化代码的几个方面，希望对您有所帮助。如果您有任何疑问，请随时提问。

【相关推荐】

你可以看下这个问题的回答https://ask.csdn.net/questions/7480752
这篇博客也不错, 你可以看下Selenium打开页面，出现弹窗需要登录账号密码，怎么解决？
您还可以看一下王春燕老师的基于java的selenium3自动化测试完整教程课程中的中级：实现在多窗口间进行切换小节, 巩固相关知识点
除此之外, 这篇博客: 解决selenium模拟浏览器爬取（淘宝、微博等需要登陆验证的网站）多次登陆问题中的 程序就会在打开的浏览器下打开需要爬取的网址，并且只需要登陆一次，就不必多次登录 部分也许能够解决你的问题。

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

基于selenium的淘宝爬虫系统.zip
2024-03-18 16:36

本项目“基于Selenium的淘宝爬虫系统”利用Python编程语言，结合Selenium库，设计了一套能够绕过淘宝网站反爬策略的数据抓取系统。下面将详细介绍Selenium库以及如何运用它来实现淘宝商品数据的自动化采集。 **...
python爬虫案例与selenium使用
2019-04-03 16:06

Selenium支持多种浏览器和编程语言，Python版本的库叫做`selenium`。它通过WebDriver接口与浏览器通信，实现自动化测试和网页操作。Selenium在爬虫中的应用主要是应对那些依赖用户交互才能显示完整内容的网站，如...
python编程实现爬虫项目从网站获取图片
2025-07-17 09:39

Python编程实现的网络爬虫项目在从网站获取图片方面具有极高的实用价值和广泛的应用前景。通过系统学习和实践，我们可以掌握这项技术，并将其应用于数据采集、图片资源整理、网络分析等多方面，为我们的工作和学习...
最新python爬虫的Selenium库详解
2024-05-03 14:35

2401_84564150的博客 print(logo) print(logo.text) 做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的...
Python Selenium爬虫实战应用
2023-01-29 09:38

LLM大模型的博客本节讲解 Python Selenium 爬虫实战案例，通过对实战案例的讲解让您进一步认识 Selenium 框架。
Python爬虫教程：使用Selenium抓取动态网页内容
2025-04-10 23:00

Python爬虫项目的博客 Selenium支持多种编程语言，包括Python、Java、C#等。它能够模拟浏览器中的各种操作，如点击、输入、滚动、抓取页面内容等。通过使用Selenium，爬虫可以在实际的浏览器环境中运行，从而获取动态加载的数据。在本文中...
python爬虫25个项目教程
2022-06-02 16:37

首先，Python之所以成为爬虫开发的首选语言，得益于其简洁的语法和丰富的第三方库。例如，BeautifulSoup库用于解析HTML和XML文档，Scrapy框架则提供了一个完整的解决方案，包括请求、解析、数据存储等流程。在本教程...
python爬虫Selenium库详细教程_python爬虫之selenium库的使用详解
2024-05-02 21:45

2301_82243493的博客说了这么多，旨在告诉大家Python这个类目无论是功能性、还是上手程度都碾压其他语言，作为最适合零基础入门的编程语言，想要学习自然不能纸上谈兵，还得沉下心来深入的研究和学习。上面的所有资料我全部打包好了并且...
python爬虫技术的运用与分析
2025-09-25 15:56

辉＠_＠的博客网络爬虫技术经历了从基础到智能的演进过程：2000-2010年主要使用urllib进行...2016年Selenium解决了动态页面抓取问题；2018年分布式技术应对大规模爬取需求；2020年后进入智能爬虫阶段，结合AI技术实现自适应解析。
selenium 爬虫的数据实战
2023-11-07 10:08

Python_P叔的博客当下最火的编程语言Python前景一片光明！如果你也想跟上时代提升自己那么请看一下. 感兴趣的小伙伴，赠送全套Python学习资料，包含面试题、简历资料等具体看下方。 CSDN大礼包：全网最全《Python学习资料》免费赠送...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月12日

selenium的爬虫运用

1条回答 默认 最新

问题事件

1条回答默认最新