小谢今天瘦了吗 2021-09-24 17:13 采纳率: 100%
浏览 36
已结题

刚开始学网络爬虫遇到了一点问题

题目:编写爬虫程序,爬取学院新闻主页中的新闻信息,包括:新闻标题,新闻时间,链接,并将这些信息转存为Excel文档。
想问问能不能提供一下思路!!

还有一个就是:
tds = tr('td')

        st0 = tds[0].string
        st4 = tds[4].string
        ulist.append([st0.strip(),tds[1].a.string,st4.strip()])

这一步不是很能理解,请大家提供一下思路,谢谢~

  • 写回答

1条回答 默认 最新

  • CSDN专家-HGJ 2021-09-24 17:18
    关注

    1.可以尝试使用requests.get进行请求,2.使用bs4对页面进行解析,3.获取节点属性值。图中就是先获取节点tds列表,然后用索引取其中字符串值。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 10月2日
  • 已采纳回答 9月24日
  • 创建了问题 9月24日

悬赏问题

  • ¥15 请问有用MZmine处理 “Waters SYNAPT G2-Si QTOF质谱仪在MSE模式下采集的非靶向数据” 的分析教程吗
  • ¥50 opencv4nodejs 如何安装
  • ¥15 adb push异常 adb: error: 1409-byte write failed: Invalid argument
  • ¥15 nginx反向代理获取ip,java获取真实ip
  • ¥15 eda:门禁系统设计
  • ¥50 如何使用js去调用vscode-js-debugger的方法去调试网页
  • ¥15 376.1电表主站通信协议下发指令全被否认问题
  • ¥15 物体双站RCS和其组成阵列后的双站RCS关系验证
  • ¥15 复杂网络,变滞后传递熵,FDA
  • ¥20 csv格式数据集预处理及模型选择