十二月309 2022-04-13 10:57 采纳率: 33.3%
浏览 109
已结题

Python无法使用xpath解析带命名空间的html标签

问题遇到的现象和发生背景

在爬虫时遇到带命名空间的html标签mm:beginlockmm:endlock,无法使用xpath解析内容

问题相关代码,请勿粘贴截图

下为html结构

<mm:beginlock translatorclass="xx" type="xx" orig="%3C!--#include file=%22xx.inc%22--%3E" fileref="xx.inc" depfiles="file://///xx.xx.xx.xx/d$/bb/zz/xx.inc"><meta http-equiv="Content-Type" content="text/html; charset=gb2312">
    <mm:endlock>...</mm:endlock>
</mm:beginlock>

下为爬虫代码

html = requests.get(url, headers=header)
selector = etree.HTML(html.text)
print(date_temp = selector.xpath('/html/body/mm:beginlock/mm:endlock/table/tbody/tr[2]/td[1]/text()'))
运行结果及报错内容

报错:lxml.etree.XPathEvalError: Undefined namespace prefix

我的解答思路和尝试过的方法

上网查询得知是xpath命名空间导致的,采用了两种方法仍未解决
1.忽略命名空间

html = requests.get(url, headers=header)
selector = etree.HTML(html.text)
print(selector.xpath('/html/body//*[name() = "mm:beginlock"]//*[name() = "mm:endlock"]/table/tbody/tr[2]/td[1]/text()))

输出结果:[]
2.节点前加命名空间的前缀

html = requests.get(url, headers=header)
selector = etree.HTML(html.text)
print(selector.xpath('/html/body/mm:beginlock/mm:endlock/table/tbody/tr[2]/td[1]', namespaces={"mm"="mm:"}))

编译器第三行标红报错:Cannot assign to function call

我想要达到的结果

用xpath解析带命名空间的html标签

  • 写回答

1条回答 默认 最新

  • ~白+黑 Python领域新星创作者 2022-04-13 18:49
    关注

    xml.etree.ElementTree --- ElementTree XML API
    基本库了解一下

    
    解析带有命名空间的 XML
    如果 XML 输入带有 命名空间,则具有前缀的 prefix:sometag 形式的标记和属性将被扩展为
    {uri}sometag,其中 prefix 会被完整 URI 所替换。并且,如果存在 默认命名空间,则完整 URI 会
    被添加到所有未加前缀的标记之前。
    下面的 XML 示例包含两个命名空间,一个具有前缀”fictional” 而另一个则作为默认命名空间:
    <?xml version="1.0"?>
    <actors xmlns:fictional="http://characters.example.com"
    xmlns="http://people.example.com">
    <actor>
    <name>John Cleese</name>
    <fictional:character>Lancelot</fictional:character>
    <fictional:character>Archie Leach</fictional:character>
    </actor>
    <actor>
    <name>Eric Idle</name>
    <fictional:character>Sir Robin</fictional:character>
    <fictional:character>Gunther</fictional:character>
    <fictional:character>Commander Clement</fictional:character>
    </actor>
    </actors>
    搜索和探查这个 XML 示例的一种方式是手动为find() 或findall() 的 xpath 中的每个标记或属性添
    加 URI:
    root = fromstring(xml_text)
    for actor in root.findall('{http://people.example.com}actor'):
    name = actor.find('{http://people.example.com}name')
    print(name.text)
    for char in actor.findall('{http://characters.example.com}character'):
    print(' |-->', char.text)
    一种更好的方式是搜索带命名空间的 XML 示例创建一个字典来存放你自己的前缀并在搜索函数中使用
    它们:
    ns = {'real_person': 'http://people.example.com',
    'role': 'http://characters.example.com'}
    for actor in root.findall('real_person:actor', ns):
    name = actor.find('real_person:name', ns)
    print(name.text)
    for char in actor.findall('role:character', ns):
    print(' |-->', char.text)
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 4月22日
  • 已采纳回答 4月14日
  • 创建了问题 4月13日

悬赏问题

  • ¥15 用C语言输入方程怎么
  • ¥15 网站显示不安全连接问题
  • ¥15 github训练的模型参数无法下载
  • ¥15 51单片机显示器问题
  • ¥20 关于#qt#的问题:Qt代码的移植问题
  • ¥50 求图像处理的matlab方案
  • ¥50 winform中使用edge的Kiosk模式
  • ¥15 关于#python#的问题:功能监听网页
  • ¥15 怎么让wx群机器人发送音乐
  • ¥15 fesafe材料库问题