skjlgo 2021-09-14 19:14 采纳率: 91.7%
浏览 82
已结题

python 爬虫问题:如何按照指定顺序爬取想要获取的信息,使用那种规则可以做到?

程序目的是:爬取文本
需要爬取的网页源代码的结构是这样的:

img

目的是:跳过第一个标签(不知道怎么跳过),读取接下来的所有标签内容(按照顺序)。
本人原先代码:

img

使用xpath,爬取p标签的内容,那么它会爬取所有的P标签,和跳过所有的h2和strong标签,就算我写上定位到h2和strong标签的xpath规则,它也只会一次性返回h2或者strong的列表,而我需要它按照网页顺序进行爬取,请问怎么样做到
最后整理:1.如何跳过第一个p标签
2.如何按照顺序把div里的文本内容爬取出来

  • 写回答

1条回答 默认 最新

  • 关注

    你爬取所有的P标签之后再把第一删除不就好了

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 9月22日
  • 已采纳回答 9月14日
  • 创建了问题 9月14日

悬赏问题

  • ¥15 虚幻5 UE美术毛发渲染
  • ¥15 CVRP 图论 物流运输优化
  • ¥15 Tableau online 嵌入ppt失败
  • ¥100 支付宝网页转账系统不识别账号
  • ¥15 基于单片机的靶位控制系统
  • ¥15 真我手机蓝牙传输进度消息被关闭了,怎么打开?(关键词-消息通知)
  • ¥15 下图接收小电路,谁知道原理
  • ¥15 装 pytorch 的时候出了好多问题,遇到这种情况怎么处理?
  • ¥20 IOS游览器某宝手机网页版自动立即购买JavaScript脚本
  • ¥15 手机接入宽带网线,如何释放宽带全部速度