普通网友 2024-04-08 16:40 采纳率: 0%
浏览 17

selenium模拟点击爬取网页下载文件

python爬虫问题,哪位DG能帮忙下

无法读取这个网站中的数据并且分行分列存储到excel当中

https://www.cftc.gov/dea/options/other_lof.htm

  • 写回答

2条回答 默认 最新

  • 关注

    下午好🌅🌅🌅
    本答案参考ChatGPT-3.5

    针对python爬虫问题,无法读取 https://www.cftc.gov/dea/options/other_lof.htm 网站中的数据并且分行分列存储到excel当中的问题,可以使用Selenium模拟点击爬取网页下载文件的方法来解决。

    解决方案如下: 1.首先安装Selenium,可以使用pip install selenium来实现。 2.下载对应浏览器的WebDriver,例如Chrome浏览器,下载ChromeDriver。 3.编写Python代码,使用Selenium模拟浏览器手动点击下载按钮。 4.使用pandas库将数据存储到Excel文件中。

    代码示例如下:

    from selenium import webdriver
    from selenium.webdriver.common.keys import Keys
    import pandas as pd
    
    # 设置ChromeDriver的路径
    chromedriver = "C:/chromedriver_win32/chromedriver.exe"
    driver = webdriver.Chrome(chromedriver)
    
    # 打开网页并点击下载按钮
    driver.get("https://www.cftc.gov/dea/options/other_lof.htm")
    download_button = driver.find_element_by_xpath("//a[contains(text(),'Download Other Reportable')]")
    download_button.click()
    
    # 等待文件下载完成
    input("请手动下载文件,下载完成后按回车键继续")
    
    # 使用pandas读取数据并存储到excel文件中
    df = pd.read_csv("C:/Users/User/Downloads/OTC%20Options%20excluding%20CDs%20Reportable.csv", skiprows=5)
    df.to_excel("C:/Users/User/Desktop/OTC Options.xlsx", index=False)
    

    在代码中需要将chromedriver的路径替换为下载的ChromeDriver的路径,还需要将下载的文件路径和保存的Excel文件路径替换为自己的路径。

    同时需要注意的是,该网站需要手动进行下载,所以需要在代码中等待手动下载完成后才能处理文件。

    评论 编辑记录

报告相同问题?

问题事件

  • 创建了问题 4月8日

悬赏问题

  • ¥15 无法输出helloworld
  • ¥15 高通uboot 打印ubi init err 22
  • ¥20 PDF元数据中的XMP媒体管理属性
  • ¥15 R语言中lasso回归报错
  • ¥15 网站突然不能访问了,上午还好好的
  • ¥15 有没有dl可以帮弄”我去图书馆”秒选道具和积分
  • ¥15 semrush,SEO,内嵌网站,api
  • ¥15 Stata:为什么reghdfe后的因变量没有被发现识别啊
  • ¥15 振荡电路,ADS仿真
  • ¥15 关于#c语言#的问题,请各位专家解答!