2条回答 默认 最新
- Kwan的解忧杂货铺@新空间代码工作室 2024-04-08 16:40关注
下午好🌅🌅🌅
本答案参考ChatGPT-3.5针对python爬虫问题,无法读取 https://www.cftc.gov/dea/options/other_lof.htm 网站中的数据并且分行分列存储到excel当中的问题,可以使用Selenium模拟点击爬取网页下载文件的方法来解决。
解决方案如下: 1.首先安装Selenium,可以使用pip install selenium来实现。 2.下载对应浏览器的WebDriver,例如Chrome浏览器,下载ChromeDriver。 3.编写Python代码,使用Selenium模拟浏览器手动点击下载按钮。 4.使用pandas库将数据存储到Excel文件中。
代码示例如下:
from selenium import webdriver from selenium.webdriver.common.keys import Keys import pandas as pd # 设置ChromeDriver的路径 chromedriver = "C:/chromedriver_win32/chromedriver.exe" driver = webdriver.Chrome(chromedriver) # 打开网页并点击下载按钮 driver.get("https://www.cftc.gov/dea/options/other_lof.htm") download_button = driver.find_element_by_xpath("//a[contains(text(),'Download Other Reportable')]") download_button.click() # 等待文件下载完成 input("请手动下载文件,下载完成后按回车键继续") # 使用pandas读取数据并存储到excel文件中 df = pd.read_csv("C:/Users/User/Downloads/OTC%20Options%20excluding%20CDs%20Reportable.csv", skiprows=5) df.to_excel("C:/Users/User/Desktop/OTC Options.xlsx", index=False)
在代码中需要将chromedriver的路径替换为下载的ChromeDriver的路径,还需要将下载的文件路径和保存的Excel文件路径替换为自己的路径。
同时需要注意的是,该网站需要手动进行下载,所以需要在代码中等待手动下载完成后才能处理文件。
解决 无用评论 打赏 举报 编辑记录
悬赏问题
- ¥15 无法输出helloworld
- ¥15 高通uboot 打印ubi init err 22
- ¥20 PDF元数据中的XMP媒体管理属性
- ¥15 R语言中lasso回归报错
- ¥15 网站突然不能访问了,上午还好好的
- ¥15 有没有dl可以帮弄”我去图书馆”秒选道具和积分
- ¥15 semrush,SEO,内嵌网站,api
- ¥15 Stata:为什么reghdfe后的因变量没有被发现识别啊
- ¥15 振荡电路,ADS仿真
- ¥15 关于#c语言#的问题,请各位专家解答!