python 爬虫问题：如何按照指定顺序爬取想要获取的信息，使用那种规则可以做到？

程序目的是：爬取文本
需要爬取的网页源代码的结构是这样的：

目的是：跳过第一个标签（不知道怎么跳过），读取接下来的所有标签内容（按照顺序）。
本人原先代码：

使用xpath，爬取p标签的内容，那么它会爬取所有的P标签，和跳过所有的h2和strong标签，就算我写上定位到h2和strong标签的xpath规则，它也只会一次性返回h2或者strong的列表，而我需要它按照网页顺序进行爬取，请问怎么样做到
最后整理：1.如何跳过第一个p标签
2.如何按照顺序把div里的文本内容爬取出来

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-天际的海浪 2021-09-14 19:20
关注
你爬取所有的P标签之后再把第一删除不就好了

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

关于#python#的问题：python爬虫爬取百度图片 python 有问必答爬虫
2021-11-27 22:00

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
python3 爬虫问题：如何爬取文本从图片里面，破解这种图片反爬虫手段！ python 有问必答爬虫
2021-08-24 15:09

回答 5 已采纳只能使用OCR识别了，没有什么好的办法，就是一张图片。你可以试试CSDN的图片识别，接口网址：https://bizapi.csdn.net/mp/ask/v1/ai/ocrText 提问题时检查图片
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
python爬虫开发代码-电影网站信息爬取案例
2024-05-31 09:39

在这个“电影网站信息爬取案例”中，我们将深入探讨如何利用Python进行网络爬虫的开发，包括多线程爬取、单个电影信息的获取以及数据处理的技巧。首先，我们来看"100线程爬取.Py"。在Python中，多线程可以提高爬虫...
关于#爬虫#的问题：爬虫爬取tr中的td内容，我的代码之前可以爬另一个几乎一样的网页(语言-python) python 爬虫
2023-03-08 20:02

回答 1 已采纳回答：你可以把你的脚本贴一下，这个网页结构还是比较清晰的，可以用beautifulsoup比较容易获取到内容
python爬虫爬取jsonp请求的响应数据怎么获取 json python
2021-05-22 21:34

回答 1 已采纳这里我们以爬取淘宝评论为例子讲解一下如何去做到的。这里主要分为了四步：一获取淘宝评论时，ajax请求链接（url）二获取该ajax请求返回的json数据三使用python解析js
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
Python-数据爬取（爬虫）
2024-07-12 17:01

.房东的猫的博客特点递归：通常用递归实现，或者使用栈来模拟递归过程。内存占用低：在有大量分支的情况下，内存占用比广度优先搜索低。适合目标较深的情况：如果目标节点距离起始节点较深，DFS能更快找到目标。适用场景需要遍历...
关于#python#的问题：爬虫开发者为别人提供了一份爬虫工具，使用者违规爬取三方机密数据 python 爬虫
2023-01-30 18:19

回答 1 已采纳使用者肯定进去，这不用说，至于开发者，就存在具体情况，假如以买卖的方式提供，也跑不了。望采纳
Python爬虫，爬取瀑布流布局中的信息 python 有问必答
2022-01-20 20:40

回答 2 已采纳瀑布流一般是通过接口加载数据，直接请求接口获取数据就行了。只要是浏览器访问能加载出来的一般都可以获取到，只是难易程度不一样而已。比如有一些js生成的签名，如果js压缩过很难分析签名生成过程，可以考虑
通过python爬虫，爬取到的图片无法打开，请问要怎么办？ pycharm python
2021-08-11 23:59

回答 2 已采纳你是真的秀，没有请求图片地址获得数据肯定打不开啊，你写入的是列表的的文本的二进制，并不是图片的。应该在图片链接后面再请求一次图片网址，然后写入获得的响应数据的二进制内容，望采纳哈
Python爬虫爬取马蜂窝旅游景点评分、评论、评论日期（针对只能爬取五页评论做了改动）
2022-03-28 13:54

### Python爬虫爬取马蜂窝旅游景点评分、评论、评论日期 #### 一、问题背景及解决方案在本文档中，我们探讨了一个常见的问题——如何有效地爬取马蜂窝网站上的旅游景点评论数据。通常情况下，用户仅能查看每个...
Python爬虫实例_城市公交网络站点数据的爬取方法
2020-09-20 21:59

在本篇《Python爬虫实例_城市公交网络站点数据的爬取方法》中，我们将学习如何使用Python进行网络数据抓取，特别关注于获取城市公交网络站点的数据。首先，我们需要安装必要的库，如`requests`用于发送HTTP请求，...
python爬虫训练：爬取榜单信息
2022-05-22 11:27

幻影九千七的博客这学期的大作业是要根据这学期的学习内容做一个综合程序，这次是一个爬取酷狗音乐飙升榜单的信息，并下载下来。可以方便和我一样喜欢白嫖的人员免费下载音乐。二、使用的库主要使用了requests库、BeautifulSoup...
python爬虫实战——小说爬取
2023-05-21 21:01

清清清清弦的博客基于requests库和lxml库编写的爬虫，目标小说网站域名http://www.365kk.cc/，类似的小说网站殊途同归，均可采用本文方法爬取。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月14日

悬赏问题

¥15 用verilog实现tanh函数和softplus函数
¥15 Hadoop集群部署启动Hadoop时碰到问题
¥15 求京东批量付款能替代天诚
¥15 slaris 系统断电后，重新开机后一直自动重启
¥15 QTableWidget重绘程序崩溃
¥15 谁能帮我看看这拒稿理由啥意思啊阿啊
¥15 关于vue2中methods使用call修改this指向的问题
¥15 idea自动补全键位冲突
¥15 请教一下写代码，代码好难
¥15 iis10中如何阻止别人网站重定向到我的网站

python 爬虫问题：如何按照指定顺序爬取想要获取的信息，使用那种规则可以做到？

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新