python xpath对孙节点内容进行匹配问题

首先查看节点结构如下，需要获取节点summaryrecordstable下的所有后代节点中，具有数据值id=RECORD_[0-9]的节点

代码如下

import requests
from lxml import etree

url_base='https://apps.webofknowledge.com'
url_test='https://apps.webofknowledge.com/full_record.do?product=WOS&search_mode=GeneralSearch&qid=2&SID=6C4xx6Mer35kGYw4PU7&page=1&doc=50'
url_head={
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.57'
}
session=requests.session();
res=session.get(url_test,headers=url_head)
res_html = etree.HTML(res.text)
url_cited_post=res_html.xpath('//a[@title="View all of the articles that cite this one"]/@href')#如果把@herf替换为text(),获取不到信息,因为a标签只有属性没有文本
print(url_cited_post[0])
url_allcited=url_base+url_cited_post[0]
res=session.get(url_allcited,headers=url_head)
res_html = etree.HTML(res.text)
# url_cited_post=res_html.xpath('//div[contains(@id,"RECORD_")]')
url_cited_post=res_html.xpath('//div[contains(@id,"summaryRecordsTable")]//div[contains(@id,"RECORD_")]')
print('end')

倒数第三行，井号注释哪一行可以正常输出，但是加上前缀后，如倒数第二行，就不能正常输出了，不知道是怎么回事

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
coagenth 2021-03-23 23:05
关注
用following定位，把前面设为顶节点，following后利用属性值再定位子孙节点。

url_cited_post = res_html.xpath(

'.//div[contains(@id,"summaryRecordsTable")]//following::div[contains(@id,"RECORD_")]')

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python xpath对孙节点内容进行匹配问题 python
2021-03-23 22:38

回答 1 已采纳用following定位，把前面设为顶节点，following后利用属性值再定位子孙节点。 url_cited_post = res_html.xpath( './/div[contain
XPATH在python selenium中的定位当前节点的子点的问题 html5 python selenium
2020-09-18 10:38

回答 1 已采纳 https://blog.csdn.net/sun_977759/article/details/100989829
xpath 获取当前节点标签名 python 全文检索数据挖掘
2021-03-25 13:22

回答 4 已采纳 from lxml import etreehtml = "world"a = etree.HTML(html)print(a.xpath("local-name(//a[@id='1'])"))pr
python定位xpath 节点位置的方法
2020-09-18 18:07

今天小编就为大家分享一篇python定位xpath 节点位置的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
python xpath实例代码 python 有问必答
2021-09-09 22:28

回答 3 已采纳你要获取什么？代码没问题啊 from lxml import etree text = ''' <ul> <li class="sp item-0" name="two"&g
By.XPATH 怎么从父节点定位子节点 python selenium
2021-09-08 15:20

回答 1 已采纳 (By.Xpath, '//table[@name="csdn"]/tr') # 获取nam属性为csdn表格中的所有行
Python无法使用xpath解析带命名空间的html标签 html python 爬虫
2022-04-13 10:57

回答 1 已采纳 xml.etree.ElementTree --- ElementTree XML API基本库了解一下解析带有命名空间的 XML 如果 XML 输入带有命名空间，则具有前缀的 prefix:s
xpathlet:对 ElementTree 对象进行操作的纯 Python XPath 实现
2021-06-18 06:37

xpathlet 对 ElementTree 对象进行操作的纯 Python XPath 实现。唯一的外部依赖是，它是一个纯 Python lex/yacc 实现。（还有一个使用的替代解析器，但目前速度要慢得多，因此不是默认解析器。） xpathlet 包含在...
求救py爬虫Xpath 子节点返回为空 python 有问必答
2021-07-02 15:30

回答 1 已采纳你用requests请求的，响应内容不能看开发者的elements标签的，你要看network的doc，如图最简单解决方法是用selenium打开网页，然后获取网页内容再获取数据如果对你有帮助，
xpath怎么从第二个开始 python 有问必答
2021-06-26 12:09

回答 2 已采纳 lis = tree.xpath('//ul/li') lis = lis[1:] xpath此时返回的是由元素组成的列表，截取这个列表即可
selenium使用find_elements进行二次定位时出现的问题 python selenium
2022-10-27 22:24

回答 1 已采纳 xpath 是绝对路径查找可以改成 find_elements(By.TAG_NAME, 'h3')，这样就是相对父元素查找
利用python爬虫(part10)–Xpath节点集与函数
2021-01-21 16:45

Xpath允许在Xpath绝对路径最后寻找出的节点集上使用谓词，作用是从当前节点集中筛选、过滤出所需要的节点，使用格式为： (绝对路径)[谓词] 针对下面的HTML文档(将这个文档命名为test12.html)，我们来写一段代码，...
爬虫关于xpath在代码中返回为空的问题_美剧天堂电影爬取的案例 python 有问必答
2021-05-13 22:48

回答 3 已采纳少了一个空格，没有选中li元素
python3 xpath获取节点_Python3爬虫（五）解析库的使用之XPath
2020-12-29 10:54

暗茧的博客 Infi-chu:XPath：全称是 XML Path Language，XML路径语言，它是一门在XML文档中和HTML文档中查找信息的语言1.XPath常用规则表达式　描述nodename　选取此节点的所有子节点/　从当前节点选取直接子节点//　从当前节点...
Python基于lxml模块解析html获取页面内所有叶子节点xpath路径功能示例
2020-09-20 11:42

主要介绍了Python基于lxml模块解析html获取页面内所有叶子节点xpath路径功能,结合实例形式较为详细的分析了Python使用lxml模块进行xml节点数据解析的相关操作技巧与注意事项,需要的朋友可以参考下
没有解决我的问题, 去提问

悬赏问题

¥15 下图接收小电路，谁知道原理
¥15 装 pytorch 的时候出了好多问题，遇到这种情况怎么处理？
¥20 IOS游览器某宝手机网页版自动立即购买JavaScript脚本
¥15 手机接入宽带网线，如何释放宽带全部速度
¥30 关于#r语言#的问题：如何对R语言中mfgarch包中构建的garch-midas模型进行样本内长期波动率预测和样本外长期波动率预测
¥15 ETLCloud 处理json多层级问题
¥15 matlab中使用gurobi时报错
¥15 这个主板怎么能扩出一两个sata口
¥15 不是，这到底错哪儿了😭
¥15 2020长安杯与连接网探

python xpath对孙节点内容进行匹配问题

1条回答 默认 最新

悬赏问题

1条回答默认最新