如何使用selenium在已爬取这页文件链接的同时翻页并一起爬取下页文件链接

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
檀越@新空间 2024-03-16 14:59
关注
zxlcaiyuangungun 下午好🌅🌅🌅
本答案参考ChatGPT-3.5

要使用Selenium在已爬取当前页的文件链接的同时翻页并一起爬取下一页的文件链接，你可以遵循以下步骤：

首先，使用Selenium启动浏览器并打开初始页面。

from selenium import webdriver from selenium.webdriver.common.keys import Keys driver = webdriver.Chrome() driver.get(url)

等待页面加载完成，确保能够获取到页面内容。

import time time.sleep(5)

使用XPath或CSS选择器等方法，从当前页面提取文件链接。

from lxml import etree page_source = driver.page_source html = etree.HTML(page_source) links = html.xpath('//td[@class="first-td"]//@href') print(links)

爬取当前页的文件链接后，执行翻页操作。可以点击下一页按钮或者直接使用键盘操作。

# 点击下一页按钮 next_button = driver.find_element_by_xpath('xpath_of_next_button') next_button.click() # 或者使用键盘操作 body = driver.find_element_by_tag_name('body') body.send_keys(Keys.PAGE_DOWN)

等待页面加载完成后，重复步骤3和步骤4，直到爬取完所有页的文件链接。

整个过程的代码示例如下所示：

from selenium import webdriver from selenium.webdriver.common.keys import Keys from lxml import etree import time url = "https://www.dg.gov.cn/gkmlpt/index#694" driver = webdriver.Chrome() driver.get(url) time.sleep(5) while True: page_source = driver.page_source html = etree.HTML(page_source) links = html.xpath('//td[@class="first-td"]//@href') print(links) next_button = driver.find_element_by_xpath('xpath_of_next_button') next_button.click() time.sleep(5)

请注意，你需要根据实际情况修改代码中的XPath表达式来定位下一页按钮。

希望能对你有所帮助！
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

使用Selenium爬取网络页面
2024-08-13 20:32

富士达幸运星的博客 elenium 是一个功能强大的工具...通过本文的指南，你可以开始使用 Selenium 进行网络页面爬取，并逐步掌握更多高级技巧。无论是数据分析、测试自动化还是其他自动化任务，Selenium 都能帮助你提高效率，减少重复劳动。
Python+selenium 职位信息爬取
2023-05-09 16:22

本文将深入探讨如何使用Python结合Selenium来爬取集团招聘网站的职位信息，并利用正则表达式进行数据过滤。首先，Python是一种高级编程语言，以其简洁、易读的语法和丰富的库支持而闻名。在数据处理和网络爬虫领域...
通过python的selenium框架爬取考试宝典题目
2020-03-30 14:30

Python作为一门编程语言，因其简洁的语法和丰富的库支持，成为爬虫开发的首选。本篇将详细介绍如何利用Python的Selenium框架来爬取“考试宝典”网站上的题目。首先，我们需要了解Selenium的基本原理。Selenium是一...
【爬虫实战】03使用Selenium爬取淘宝商品数据
2024-08-08 21:15

阿欣Python与机器学习的博客是一个自动化测试工具，利用它可以驱动浏览器执行特定的动作，如点击、下拉等操作，同时还可以获取浏览器当前呈现的页面的源代码，做到可见即可爬。所以说，如果用 Selenium 来驱动浏览器加载网页的话，就可以直接拿...
Python使用Selenium爬取淘宝异步加载的数据方法
2020-09-19 20:20

### Python使用Selenium爬取淘宝异步加载的数据方法 #### 概述本文将详细介绍如何使用Python中的Selenium库来爬取淘宝网站上通过异步加载显示的数据。由于淘宝页面结构较为复杂，直接通过解析Ajax请求或JavaScript...
使用Python和Selenium爬取京东商品数据
2024-07-16 11:45

0dayNu1L的博客 ❤❤码农不是吗喽（大学生版）-CSDN博客在本文中，我们将探讨如何使用Python编程语言结合Selenium库来爬取京东网站上的商品数据。Selenium是一个强大的工具，可以模拟真实用户对网页的交互操作，非常适合进行网页...
Python 基于 Scrapy+Selenium 爬取百度图片解决拦截盗链问题！.zip
2026-01-14 18:29

结合Scrapy+Selenium的解决方案是：首先使用Selenium模拟用户登录百度图片，执行搜索、翻页等操作，获取到图片的URL链接。然后，利用Scrapy的管道（pipeline）或Item Exporter将这些URL保存下来。最终，可以使用...
Python 爬虫实战：使用 Selenium 爬取淘宝商品数据（支持模拟登录和动态加载）
2025-03-09 23:48

Python爬虫项目的博客模拟浏览器行为，可以实现对淘宝动态加载数据的完整爬取。✅ 解析商品标题、价格、销量、商家信息等。模拟登录淘宝，手动输入验证码（必要时）。将商品数据存储为 CSV 文件。✅ 设置合理的请求间隔（使用。✅ 遇到...
爬虫入门经典(十四) | 使用selenium尝试爬取豆瓣图书
2020-10-30 10:45

不温卜火的博客大家好，我是不温卜火，是一名计算机学院大数据专业大三的学生，...暂时只在csdn这一个平台进行更新，博客主页：https://buwenbuhuo.blog.csdn.net/。 PS：由于现在越来越多的人未经本人同意直接爬取博主本人.
python3 selenium + fiddler 爬取动态js页面数据
2019-10-14 20:47

Python编程KK的博客先打开，然后查看网页源码，发现是一堆js，并没有具体的每个新闻的url详情，于是第一反应，肯定是js动态加载拼接的url。然后接着按f12 查看，就看url，发现出来了好多url。然后点击具体的某一个新闻详情页面，查看...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月16日

如何使用selenium在已爬取这页文件链接的同时翻页并一起爬取下页文件链接

4条回答 默认 最新

问题事件

4条回答默认最新