爬虫问题,xpath拿出了一个列表,但是列表里面缺失了一个数据,循环拿出的时候,因为其他数据都是十个,而那个数据只有9,导致索引错误,有没有办法解决,如果那个缺失数据的位置在中间5,6的位置,能不能用其他代替,因为如果不代替,比如第6个数据和其他第五个数据就匹配上了,这样就导致数据不准确,问问各位什么好的方法解决吗?
关注
码龄 粉丝数 原力等级 --
- 被采纳
- 被点赞
- 采纳率

已结题
xpath获取网站信息时遇到问题
收起
- 写回答
- 好问题 0 提建议
- 关注问题
微信扫一扫
点击复制链接分享
- 邀请回答
- 编辑 收藏 删除
- 收藏 举报
3条回答 默认 最新
- 关注
码龄 粉丝数 原力等级 --
- 被采纳
- 被点赞
- 采纳率
taki0 2021-12-30 20:37关注
我是这样从把xpath获取的数据拿出来的本回答被题主选为最佳回答 , 对您是否有帮助呢? 本回答被专家选为最佳回答 , 对您是否有帮助呢? 本回答被题主和专家选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏举报微信扫一扫
点击复制链接分享
评论按下Enter换行,Ctrl+Enter发表内容
报告相同问题?
提交
- 2023-02-12 21:37回答 3 已采纳 最好不要用全路径,路径写的越长月容易出错,页面经过浏览器渲染会增加一些诸如tbody的标签,而代码请求的相应中不一定会有,因此建议尽量简化xpath路径,我的宗旨是:在能准确定位的基础上,路径越短越好
- 2022-05-30 23:15回答 2 已采纳 不知道是不是有个逗号的原因,然后把后面给截断了,可以试试正则去提取 import requests,re url = 'https://www.renren.com/login' rep=reque
- 2023-03-13 17:09回答 5 已采纳 titles=html.xpath('//*[@class="title"]/a//text()') abstracts=html.xpath('//*[@class="abstract"]') r
- 2020-09-19 19:07# 假设str1是从HTML文档中通过XPath获取的标签 inner_content = getinnerhtml(str1) print(inner_content) # 输出: OK[推荐] ``` 在这个例子中,`getinnerhtml`函数通过查找开始和结束标签的位置来截取`str1`中的...
- 2021-12-10 11:12回答 1 已采纳 为空的地方xpath主要是为了拿到什么数据,贴一下网页和要拿到的数据,帮你写一下xpath。上面图上的xpath那么长那么绝对路径,大概率拿不到数据的。
- 2022-01-04 18:04回答 1 已采纳 我是JAVA的xpath html.xpath("//table[@id='main_table_countries_today']/tbody/tr[@style=' ']").你看着修改下
- 2022-05-29 01:42回答 2 已采纳 原因代码没错,输出的时候需要根据你的需求改一下输出 解决方法Selenium WebDriverWait 获取元素文本需要使用 element.get_attribute('attributeName
- 2022-11-12 14:10dddpppppp的博客 (因为很让我觉得头疼的就是我想爬的那个网站的源代码和elements不一样,不仅如此,源代码写的还很不方便看,例如一行整整几十列,感觉是故意的:(,从源代码里看非常费劲)从前往后依次尝试//*[@id="__layout"]/div...
- 2022-01-13 14:39回答 1 已采纳 用一下相对路径就可以咯🙈🙈🙈
- 2022-04-30 20:03回答 1 已采纳 https://www.yisu.com/zixun/322054.html参考一下
- 2022-04-09 22:19回答 2 已采纳 用pypy,namba(需重构,加装饰器),cython(需重构,显式声明类型)用正则表达式更快,但适用性会降低灵活运用异步减少中间值的使用少用for循环控制线程数量,考虑协程、多进程,因为有GIL的
- 2022-08-01 19:59阿浩( ̄▽ ̄)的博客 XPath是一门在XML文档中查找信息的语言,最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索。所以在Python爬虫中,我们经常使用xpath解析这种高效便捷的方式来提取信息。
- 2021-04-26 18:42国服露娜的博客 所以我有了这个link,我试图从XPath //div[@class='titlu']中获取文本,但由于某些原因,有时我得到的文本应该是什么样子,而有时我收到的是一个空字符串,即使站点包含该文本。在我尝试了什么:wait = ...
- 2020-09-20 22:36本篇文章将深入探讨在使用Python的`lxml`库解析HTML文档并使用XPath时,遇到`<Element a at 0x39a9a80>`这样的输出时应该如何理解和处理。 首先,`<Element a at 0x39a9a80>`并不是一个字符串,而是一个对象的表示...
- 2024-05-01 04:352401_84139711的博客 爬取网址https://xa.58.com/ershoufang/完整代码xpath图片解析下载实例爬取网址https://pic.netbian.com/4kmeinv/完整代码xpath爬取全国城市名称实例爬取网址https://www.aqistudy.cn/historydata/完整代码xpath爬取...
- 没有解决我的问题, 去提问