嗷嗷373 2022-08-03 18:00 采纳率: 66.7%
浏览 158
已结题

利用python自动爬取网页相关信息并输出到excel表格里

接到一个任务,我们有一个网页。我们从网页端输入不同的事件编号,会展示出来不同的事件的状态,内容等等。我现在要做的是写一个python程序,可以从本地导入一个excel表格(里面有事件的编号),然后可以自动去网站上一个个爬取我需要的相关信息并且整理导出到一个excel表格里,大概的设计流程是怎样的?每个流程需要用到哪些知识?稍微详细点

  • 写回答

5条回答 默认 最新

  • 江天暮雪丨 2022-08-03 18:31
    关注

    设计流程

    读取Excel中的事件编号

    需要的知识:使用 Python 读取Excel中的数据

    输入事件编号到网页端

    需要的知识:1.使用 Python 发送网络请求。
    首先需要分析目标网页输入事件编号这一请求具体的请求地址,携带参数等,使用第三方库模拟请求发送
    2.或者是使用 Python Selenium 控制浏览器进行各项操作

    爬取需要的相关信息

    如果是模拟发送请求,可以分析该请求的响应内容,是否可以提取出需要的数据。相关知识:Json 解构
    而使用 selenium 控制浏览器的方法,可以直接使用库内置方法提取网页任意位置的数据,相关知识:Python Selenium 爬虫

    数据导出Excel

    需要的知识:Python 写入Excel

    其他

    用户操作界面

    将你的程序交付于给用户操作,使用户可以选择导入哪一个Excel,导出到哪一个Excel等等,相关知识:Python GUI

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(4条)

报告相同问题?

问题事件

  • 系统已结题 8月17日
  • 已采纳回答 8月9日
  • 创建了问题 8月3日

悬赏问题

  • ¥15 编写vba代码实现数据录入工作
  • ¥15 做过TCL海信电视小米电视相关影视会员软件私我
  • ¥15 Mapreduce是正常的,在运行其他jar包时并没有任何问题,只是在做LogCount.jar 时出的问题。如图所示
  • ¥15 ImportError: DLL load failed while importing _iterative: 找不到指定的模块。
  • ¥15 如何通过交互分析得出某高危患者对放疗获益更多
  • ¥15 相关性分析中,p<0.05, r=0.29,怎么评价相关性呢
  • ¥15 docker部署Mongodb后输入命令报错?
  • ¥15 将下列流程图转变成python程序代码
  • ¥15 我需要全国每个城市的最新小区名字等数据。
  • ¥15 开发一个小区生态的小程序