skjlgo 2021-09-14 19:14 采纳率: 91.7%
浏览 86
已结题

python 爬虫问题:如何按照指定顺序爬取想要获取的信息,使用那种规则可以做到?

程序目的是:爬取文本
需要爬取的网页源代码的结构是这样的:

img

目的是:跳过第一个标签(不知道怎么跳过),读取接下来的所有标签内容(按照顺序)。
本人原先代码:

img

使用xpath,爬取p标签的内容,那么它会爬取所有的P标签,和跳过所有的h2和strong标签,就算我写上定位到h2和strong标签的xpath规则,它也只会一次性返回h2或者strong的列表,而我需要它按照网页顺序进行爬取,请问怎么样做到
最后整理:1.如何跳过第一个p标签
2.如何按照顺序把div里的文本内容爬取出来

  • 写回答

1条回答 默认 最新

  • 关注

    你爬取所有的P标签之后再把第一删除不就好了

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 9月22日
  • 已采纳回答 9月14日
  • 创建了问题 9月14日

悬赏问题

  • ¥15 用verilog实现tanh函数和softplus函数
  • ¥15 Hadoop集群部署启动Hadoop时碰到问题
  • ¥15 求京东批量付款能替代天诚
  • ¥15 slaris 系统断电后,重新开机后一直自动重启
  • ¥15 QTableWidget重绘程序崩溃
  • ¥15 谁能帮我看看这拒稿理由啥意思啊阿啊
  • ¥15 关于vue2中methods使用call修改this指向的问题
  • ¥15 idea自动补全键位冲突
  • ¥15 请教一下写代码,代码好难
  • ¥15 iis10中如何阻止别人网站重定向到我的网站