Python用selenium爬取网页，换页后数据没更新

selenium爬取网站，用数组保存数据，但在点击标签页内翻页后，无法捕捉到换页后的数据，反而还保存着上一页数据

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2024-05-30 20:07
关注
以下内容由CHATGPT及阿里嘎多学长共同生成、有用望采纳：

在使用Selenium进行网页爬取时，如果在翻页后数据没有更新，这通常是因为Selenium没有等待页面加载完成。在进行翻页操作后，需要确保页面元素已经加载完毕，才能正确地获取新的数据。

以下是一些可能的解决方案：

等待页面加载：使用Selenium提供的WebDriverWait和expected_conditions来等待页面元素加载完成。

显式等待：在执行翻页操作后，使用显式等待直到某个元素出现在页面上，这通常意味着页面已经加载完毕。

隐式等待：设置一个较长的隐式等待时间，让Selenium在查找元素之前等待页面加载。

下面是一个使用显式等待的示例代码：

from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC # 启动WebDriver driver = webdriver.Chrome() # 打开目标网页 driver.get("http://example.com") # 假设我们有一个翻页按钮 next_page_button = (By.ID, "next_page_button_id") # 翻页函数 def go_to_next_page(driver, button_locator): try: # 等待翻页按钮出现 WebDriverWait(driver, 10).until( EC.element_to_be_clickable(button_locator) ) # 点击翻页按钮 next_page_button = driver.find_element(*button_locator) next_page_button.click() # 等待新页面加载完成，这里以某个特定元素为例 WebDriverWait(driver, 10).until( EC.presence_of_element_located((By.ID, "new_page_element_id")) ) except Exception as e: print("Error:", e) # 循环翻页并获取数据 while True: # 获取当前页面数据 # ... # 调用翻页函数 go_to_next_page(driver, next_page_button) # 检查是否到达最后一页，如果是，则退出循环 if is_last_page(driver): break # 关闭WebDriver driver.quit()

在这个示例中，go_to_next_page函数负责点击翻页按钮并等待新页面加载。WebDriverWait用于设置等待时间（这里设置为10秒），并等待页面上某个元素出现，这个元素应该是新页面加载完成后才会出现的。

参考资料：

Selenium 官方文档：https://www.selenium.dev/documentation/en/
显式等待教程：https://www.geeksforgeeks.org/explicit-wait-in-selenium/
隐式等待教程：https://www.geeksforgeeks.org/implicit-wait-in-selenium/

请注意，实际的元素定位器（如By.ID和元素ID）需要根据你正在爬取的特定网页进行调整。此外，确保你的Selenium WebDriver与浏览器版本兼容。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

Selenium学习四——利用Python爬取网页多个页面的表格数据并存到已有的excel中
2017-09-26 12:04

晓晓星辰的博客利用Python爬取网页多个页面的表格数据并存到已有的excel中 1、具体要求获取牛客网->题库->在线编程->剑指Offer网页，获取表格中的全部题目，保存到本地excel中 2、技术要求利用Selenium+...
10分钟教你用Python爬取Baidu文库全格式内容
2020-07-06 14:41

嗨学编程的博客考虑到现在大部分小伙伴使用Python主要因为爬虫，那么为了更好地帮助大家巩固爬虫知识，加深对爬虫的理解，我们小组选择了爬取百度文库作为我们的大作业。 TXT,DOCX爬取与保存在爬取任何东西之前，我们都要先确认...
数据_python爬虫_
2021-09-29 18:08

3. **模拟登录**: 如果需要登录后才能访问某些数据，可以使用requests库的session功能，或者使用Selenium库模拟浏览器行为。 4. **异常处理与重试机制**: 为了应对网络波动和服务器响应问题，应设置异常处理和重试...
python翻页功能url不变_爬取Ajax动态加载和翻页时url不变的网页
2020-12-06 13:23

weixin_39571938的博客这两天投了一家公司的爬虫实习生，笔试题是完成一个爬虫的小需求。网站没有什么反爬的高级技巧。但是有非常常见的，并不是针对我们爬虫的，却让我们新手很难...AJAX 是一种用于创建快速动态网页的技术。通过在后台与...
[python爬虫] Selenium切换窗口句柄及调用Chrome浏览器
2016-11-21 04:36

Eastmount的博客因为我的博客是根据我每个阶段自己做的...我爬虫主要使用Selenium、BeautifulSoup和Scrapy，其中Selenium能够结合浏览器解决登录验证码、扫二维码、效果预览、自动测试等问题；BeautifulSoup的优势是速度，两种方法都
python爬取百度网盘文库pdf格式_10分钟教你用Python爬取Baidu文库全格式内容
2020-12-13 10:24

weixin_39878549的博客周航程序猿声PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取考虑到现在大部分小伙伴使用Python主要因为爬虫，那么为了更好地帮助大家巩固爬虫知识，加深对爬虫的理解，我们小组选择了爬取百度文库...
Python爬虫实战教程——从小说网站抓取每个章节内容的完整实现
2025-01-12 09:28

Python爬虫项目的博客在本文中，我们详细介绍了如何使用Python爬虫技术从小说网站抓取每个章节的内容。我们涵盖了静态页面和动态页面的抓取方法，处理了反爬虫机制，并且展示了如何存储和分析抓取的数据。通过本文的学习，您可以掌握如何...
【爬虫】根据关键词自动搜索并爬取结果
2022-11-29 17:02

一个无情的靓女的博客根据关键词自动搜索并爬取网页的信息
Python爬虫学习3-动态网页抓取基础
2021-01-29 16:37

capodexi的博客由于静态网页和动态网页在原理上存在差异，因此在学习使用Python爬取动态网页内容时需要先学习动态网页的基本概念并理解其与静态网页的差异。动态网页技术的基本原理 AJAX技术即异步JavaScript和XML，通过后台与...
10分钟教会你用Python爬取 Baidu文库全格式内容
2024-03-05 10:26

田野猫咪的博客但是，从常识来讲，如果网页的内容是异步加载的，那么直接通过百度搜索，是搜索不到网页内部的内容的，但是很显然，我们每次通过百度搜索都是可以直接找到文库中的文本内容的。对待异步加载的数据，我们通常采取的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月31日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月30日

Python用selenium爬取网页，换页后数据没更新

2条回答 默认 最新

问题事件

2条回答默认最新