Python无法使用xpath解析带命名空间的html标签

问题遇到的现象和发生背景

在爬虫时遇到带命名空间的html标签mm:beginlock与mm:endlock，无法使用xpath解析内容

问题相关代码，请勿粘贴截图

下为html结构

<mm:beginlock translatorclass="xx" type="xx" orig="%3C!--#include file=%22xx.inc%22--%3E" fileref="xx.inc" depfiles="file://///xx.xx.xx.xx/d$/bb/zz/xx.inc"><meta http-equiv="Content-Type" content="text/html; charset=gb2312">
    <mm:endlock>...</mm:endlock>
</mm:beginlock>

下为爬虫代码

html = requests.get(url, headers=header)
selector = etree.HTML(html.text)
print(date_temp = selector.xpath('/html/body/mm:beginlock/mm:endlock/table/tbody/tr[2]/td[1]/text()'))

运行结果及报错内容

报错：lxml.etree.XPathEvalError: Undefined namespace prefix

我的解答思路和尝试过的方法

上网查询得知是xpath命名空间导致的，采用了两种方法仍未解决
1.忽略命名空间

html = requests.get(url, headers=header)
selector = etree.HTML(html.text)
print(selector.xpath('/html/body//*[name() = "mm:beginlock"]//*[name() = "mm:endlock"]/table/tbody/tr[2]/td[1]/text()))

输出结果：[]
2.节点前加命名空间的前缀

html = requests.get(url, headers=header)
selector = etree.HTML(html.text)
print(selector.xpath('/html/body/mm:beginlock/mm:endlock/table/tbody/tr[2]/td[1]', namespaces={"mm"="mm:"}))

编译器第三行标红报错：Cannot assign to function call

我想要达到的结果

用xpath解析带命名空间的html标签

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

～白+黑新星创作者: python技术领域 2022-04-13 18:49

关注

xml.etree.ElementTree --- ElementTree XML API
基本库了解一下


解析带有命名空间的 XML
如果 XML 输入带有 命名空间，则具有前缀的 prefix:sometag 形式的标记和属性将被扩展为
{uri}sometag，其中 prefix 会被完整 URI 所替换。并且，如果存在 默认命名空间，则完整 URI 会
被添加到所有未加前缀的标记之前。
下面的 XML 示例包含两个命名空间，一个具有前缀”fictional” 而另一个则作为默认命名空间:
<?xml version="1.0"?>
<actors xmlns:fictional="http://characters.example.com"
xmlns="http://people.example.com">
<actor>
<name>John Cleese</name>
<fictional:character>Lancelot</fictional:character>
<fictional:character>Archie Leach</fictional:character>
</actor>
<actor>
<name>Eric Idle</name>
<fictional:character>Sir Robin</fictional:character>
<fictional:character>Gunther</fictional:character>
<fictional:character>Commander Clement</fictional:character>
</actor>
</actors>
搜索和探查这个 XML 示例的一种方式是手动为find() 或findall() 的 xpath 中的每个标记或属性添
加 URI:
root = fromstring(xml_text)
for actor in root.findall('{http://people.example.com}actor'):
name = actor.find('{http://people.example.com}name')
print(name.text)
for char in actor.findall('{http://characters.example.com}character'):
print(' |-->', char.text)
一种更好的方式是搜索带命名空间的 XML 示例创建一个字典来存放你自己的前缀并在搜索函数中使用
它们:
ns = {'real_person': 'http://people.example.com',
'role': 'http://characters.example.com'}
for actor in root.findall('real_person:actor', ns):
name = actor.find('real_person:name', ns)
print(name.text)
for char in actor.findall('role:character', ns):
print(' |-->', char.text)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

Python使用xpath解析带命名空间的XML
2019-05-15 09:34

静风说的博客 xpath解析XML简单明了，但是XML有命名空间的话就会出错了。解决方法是节点前加命名空间的前缀，下例中x、y是变量可以任意定义。例如XML文档如下： Text 解析代码片段： tree = etree.parse(path) root = tree....
python ----- xml 命名空间与xpath详解
2024-06-25 21:17

husterlichf的博客 python xml 命名空间xmlns和xpath详解
python 使用xpath解析含有命名空间(xmlns)的xml
2019-07-23 16:05

weixin_30364147的博客解决办法: from lxml import etree xml = etree.parse("./cee.xml") ...print(root.xpath(".//i:Reviews", namespaces={"i":"http://www.bazaarvoice.com/xs/PRR/StandardClientFeed/14.7"})) ...
python遍历带命名空间的xml_Python自带xml模块实现xpath查询带xmlns命名空间的xml
2020-12-10 19:56

weixin_39615419的博客需求手上有个项目需要解析xml数据，参考写爬虫的经验，容易想到使用XPath语句进行节点导航。XPath 是一门在 XML 文档中查找信息的语言,用于在 XML 文档中通过元素和属性进行导航。XPath 使用路径表达式来选取 XML ...
python使用lxml解析命名空间xml
2019-05-06 17:40

小马~的博客 python解析xml使用较简单的是用lxml包来解析，最方便获取节点的是通过xpath语法，但是带命名空间的xml文档就无法正常解析到，需要在解析时加入namespace的命名空间头信息，折腾半天，特记录如下：示例xml <test:...
Python爬虫技术系列-02HTML解析-xpath与lxml
2023-09-25 16:37

IT从业者张某某的博客本文为爬虫系列，主要讲解关于xpath和lxml的使用
python命名空间详解
2024-06-14 19:42

apk___的博客 Python命名空间详解。
【Python爬虫详解】第四篇：使用解析库提取网页数据——XPath
2025-04-24 16:30

Luck_ff0810的博客通常比BeautifulSoup更快，特别是在处理大型文档时跨平台通用：几乎所有编程语言都有XPath的实现灵活性高：可以通过各种轴、谓词和函数构建复杂的选择条件在Python中，我们主要通过lxml库来使用XPath功能。...
Python中使用XPath
2019-04-15 16:07

pengjunlee的博客目录 XPath简介 XPath语法选取节点 ...使用lxml 摘自W3School官方文档：http://www.w3school.com.cn/xpath/index.asp XPath简介 XPath （XML Path Language）是一门在 HTML\XML 文档中查找...
python 命名空间报错,命名空间错误lxml xpath python
2021-03-01 10:53

weixin_39743511的博客 for elt in tree.xpath("//w:gridCol"): File "lxml.etree.pyx", line 2029, in lxml.etree._ElementTree.xpath (src/lxml/lxml.etree.c:45934) File "xpath.pxi", line 379, in lxml.etree.XPathDocumentEvaluator...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月13日