selenium模拟点击爬取网页下载文件

python爬虫问题，哪位DG能帮忙下

无法读取这个网站中的数据并且分行分列存储到excel当中

https://www.cftc.gov/dea/options/other_lof.htm

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
檀越@新空间 2024-04-08 16:40
关注
下午好🌅🌅🌅
本答案参考ChatGPT-3.5

针对python爬虫问题，无法读取 https://www.cftc.gov/dea/options/other_lof.htm 网站中的数据并且分行分列存储到excel当中的问题，可以使用Selenium模拟点击爬取网页下载文件的方法来解决。

解决方案如下： 1.首先安装Selenium，可以使用pip install selenium来实现。 2.下载对应浏览器的WebDriver，例如Chrome浏览器，下载ChromeDriver。 3.编写Python代码，使用Selenium模拟浏览器手动点击下载按钮。 4.使用pandas库将数据存储到Excel文件中。

代码示例如下：

from selenium import webdriver from selenium.webdriver.common.keys import Keys import pandas as pd # 设置ChromeDriver的路径 chromedriver = "C:/chromedriver_win32/chromedriver.exe" driver = webdriver.Chrome(chromedriver) # 打开网页并点击下载按钮 driver.get("https://www.cftc.gov/dea/options/other_lof.htm") download_button = driver.find_element_by_xpath("//a[contains(text(),'Download Other Reportable')]") download_button.click() # 等待文件下载完成 input("请手动下载文件，下载完成后按回车键继续") # 使用pandas读取数据并存储到excel文件中 df = pd.read_csv("C:/Users/User/Downloads/OTC%20Options%20excluding%20CDs%20Reportable.csv", skiprows=5) df.to_excel("C:/Users/User/Desktop/OTC Options.xlsx", index=False)

在代码中需要将chromedriver的路径替换为下载的ChromeDriver的路径，还需要将下载的文件路径和保存的Excel文件路径替换为自己的路径。

同时需要注意的是，该网站需要手动进行下载，所以需要在代码中等待手动下载完成后才能处理文件。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

使用Selenium模拟用户操作爬取数据：构建动态网页爬虫的完整指南
2025-02-24 21:47

Python爬虫项目的博客 Selenium是一个用于Web应用程序测试的工具，支持多种浏览器和操作系统。它可以通过编程方式控制浏览器，模拟用户的操作，如点击、输入、滚动等。跨浏览器支持：支持Chrome、Firefox、Edge等多种浏览器。跨平台支持：...
实战！用 Selenium 模拟浏览器爬取动态加载网页
2025-11-10 23:15

python 爬虫工程师的博客本文介绍了使用Selenium爬取动态加载网页的技术方案，针对传统爬虫无法获取JavaScript渲染内容的痛点，以豆瓣电影排行榜为例详细讲解了完整实现流程。内容涵盖：1）环境搭建与浏览器自动化配置；2）模拟滚动触发动态...
selenium+PhantomJS爬取豆瓣读书
2020-09-18 17:57

Selenium是一种用于Web应用程序测试的工具，它可以模拟浏览器中的用户行为，包括导航、点击按钮、填写表单等。PhantomJS是一个无头浏览器（即没有图形界面的浏览器），它可以在后台运行，支持JavaScript，可以执行...
Python实战：用Selenium爬取网页数据
2024-12-20 10:33

奔向理想的星辰大海的博客 Selenium是一个强大的自动化测试和网页爬取工具，它可以模拟用户在浏览器中的操作，处理JavaScript动态加载的内容。对于一些动态加载内容的网站，我们可以利用Selenium提供的显式等待和隐式等待机制，以确保网页上的...
Selenium模拟浏览器万能爬虫指南.pdf
2020-04-10 17:28

Selenium特别适合动态网页的数据爬取，尤其在需要模拟用户登录、点击、滑动等操作时，通过执行JavaScript语句，可以轻松实现对复杂交互的支持。然而，Selenium的劣势也很明显，由于它需要创建一个真实的浏览器环境...
Python+selenium 职位信息爬取
2023-05-09 16:22

通过WebDriver接口，Selenium可以控制浏览器进行操作，如打开网页、点击元素、填写表单等。在爬取动态加载的职位信息时，如果单纯使用requests可能无法获取完整数据，因为这些数据往往是在页面加载过程中由...
使用Selenium爬取动态网页信息【网络通信编程】
2021-12-17 16:31

ww丶121的博客安装二、网页自动化测试1.打开浏览器并访问百度2.爬取动态网页的名人名言3.爬取京东图书三、参考文献一、Selenium简介 1.原理 Selenium 是一个 Web 应用的自动化框架。通过它，我们可以写出自动化程序，像人一样在...
Python+selenium爬取工人日报内容
2025-04-25 16:28

它支持多种浏览器，能够模拟用户在浏览器中的所有操作，包括点击、滚动、输入文本等，使得从动态加载数据的网页中爬取数据成为可能。在准备爬取工人日报内容之前，我们需要了解工人日报的网站结构。通过分析网页的...
基于Selenium的新闻爬取技术实操
2024-09-12 17:11

Token_w的博客基于Selenium的新闻爬取技术实操
selenium webdriver爬取动态网页
2018-12-31 13:21

首先，Selenium是一个自动化测试工具，它能够模拟真实用户在浏览器上的操作。WebDriver是Selenium的一部分，它允许程序控制浏览器并执行各种操作，如点击、滚动、填写表单等，这对于处理JavaScript渲染的动态内容...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月8日

selenium模拟点击爬取网页下载文件

2条回答 默认 最新

问题事件

2条回答默认最新