python xpath对孙节点内容进行匹配问题

首先查看节点结构如下，需要获取节点summaryrecordstable下的所有后代节点中，具有数据值id=RECORD_[0-9]的节点

代码如下


import requests
from lxml import etree
 
url_base='https://apps.webofknowledge.com'
url_test='https://apps.webofknowledge.com/full_record.do?product=WOS&search_mode=GeneralSearch&qid=2&SID=6C4xx6Mer35kGYw4PU7&page=1&doc=50'
url_head={
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.57'
}
session=requests.session();
res=session.get(url_test,headers=url_head)
res_html = etree.HTML(res.text)
url_cited_post=res_html.xpath('//a[@title="View all of the articles that cite this one"]/@href')#如果把@herf替换为text(),获取不到信息,因为a标签只有属性没有文本
print(url_cited_post[0])
url_allcited=url_base+url_cited_post[0]
res=session.get(url_allcited,headers=url_head)
res_html = etree.HTML(res.text)
# url_cited_post=res_html.xpath('//div[contains(@id,"RECORD_")]')
url_cited_post=res_html.xpath('//div[contains(@id,"summaryRecordsTable")]//div[contains(@id,"RECORD_")]')
print('end')

倒数第三行，井号注释哪一行可以正常输出，但是加上前缀后，如倒数第二行，就不能正常输出了，不知道是怎么回事

展开全部

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
coagenth 2021-03-23 15:05
关注
用following定位，把前面设为顶节点，following后利用属性值再定位子孙节点。

url_cited_post = res_html.xpath(

'.//div[contains(@id,"summaryRecordsTable")]//following::div[contains(@id,"RECORD_")]')

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

编辑

预览

报告相同问题？

关注问题

XPATH在python selenium中的定位当前节点的子点的问题 html5 python selenium
2020-09-18 02:38

回答 1 已采纳 https://blog.csdn.net/sun_977759/article/details/100989829
xpath 获取当前节点标签名 python 全文检索数据挖掘
2021-03-25 05:22

回答 4 已采纳 from lxml import etreehtml = "world"a = etree.HTML(html)print(a.xpath("local-name(//a[@id='1'])"))pr
python xpath实例代码 python 有问必答
2021-09-09 14:28

回答 3 已采纳你要获取什么？代码没问题啊 from lxml import etree text = ''' <ul> <li class="sp item-0" name="two"&g
python定位xpath 节点位置的方法
2020-09-18 10:07

在Python代码中，我们可以利用Selenium的`find_elements_by_xpath`方法来执行这些XPath表达式，并获取相应的节点列表。上述代码段展示了如何使用`find_elements_by_xpath`来选取`<html>`和`<head>`元素，并打印出...
Python无法使用xpath解析带命名空间的html标签 html python 爬虫
2022-04-13 02:57

回答 1 已采纳 xml.etree.ElementTree --- ElementTree XML API基本库了解一下解析带有命名空间的 XML 如果 XML 输入带有命名空间，则具有前缀的 prefix:s
By.XPATH 怎么从父节点定位子节点 python selenium
2021-09-08 07:20

回答 1 已采纳 (By.Xpath, '//table[@name="csdn"]/tr') # 获取nam属性为csdn表格中的所有行
求救py爬虫Xpath 子节点返回为空 python 有问必答
2021-07-02 07:30

回答 1 已采纳你用requests请求的，响应内容不能看开发者的elements标签的，你要看network的doc，如图最简单解决方法是用selenium打开网页，然后获取网页内容再获取数据如果对你有帮助，
Python使用xpath对解析内容进行数据提取
2024-06-13 08:20

做梦都在改BUG的博客大家可以尝试去抓取这个url：获取第一页数据即可，同时也可以思考一下，如何进行多页的获取，实现翻页功能。
xpath怎么从第二个开始 python 有问必答
2021-06-26 04:09

回答 2 已采纳 lis = tree.xpath('//ul/li') lis = lis[1:] xpath此时返回的是由元素组成的列表，截取这个列表即可
selenium使用find_elements进行二次定位时出现的问题 python selenium
2022-10-27 14:24

回答 1 已采纳 xpath 是绝对路径查找可以改成 find_elements(By.TAG_NAME, 'h3')，这样就是相对父元素查找
爬虫关于xpath在代码中返回为空的问题_美剧天堂电影爬取的案例 python 有问必答
2021-05-13 14:48

回答 3 已采纳少了一个空格，没有选中li元素
xpathlet:对 ElementTree 对象进行操作的纯 Python XPath 实现
2021-06-17 22:37

xpathlet 对 ElementTree 对象进行操作的纯 Python XPath 实现。唯一的外部依赖是，它是一个纯 Python lex/yacc 实现。（还有一个使用的替代解析器，但目前速度要慢得多，因此不是默认解析器。） xpathlet 包含在...
笔记三Python xpath
2025-03-01 18:00

XPath不仅仅是选择元素，还可以用来匹配节点的属性，从而实现对数据的精确抓取。在Python中，可以利用内置的库如xml.etree.ElementTree来解析XML文档，并配合XPath表达式进行数据提取。但是，由于xml.etree....
python的xpath获取div标签内html内容,实现innerhtml功能的方法
2020-09-19 11:07

在Python中，XPath是一种强大的XML和HTML文档查询语言，它允许开发者通过路径表达式来选取节点。然而，XPath本身并不直接提供获取HTML标签内部完整HTML内容（即`innerHTML`）的功能，这通常需要通过额外的处理来实现...
利用python爬虫(part10)–Xpath节点集与函数
2021-01-21 08:45

在Python中，使用`lxml`库的`xpath()`方法可以获取这些节点集。在给定的示例中，我们看到两种XPath表达式`(/html//li)[1]` 和 `/html//li[1]` 都选择了第一个`<li>`元素，尽管它们的逻辑有所不同。前者先选取所有`...
没有解决我的问题, 去提问

python xpath对孙节点内容进行匹配问题

1条回答 默认 最新

1条回答默认最新