十二月309 2022-04-13 10:57 采纳率: 33.3%
浏览 146
已结题

Python无法使用xpath解析带命名空间的html标签

问题遇到的现象和发生背景

在爬虫时遇到带命名空间的html标签mm:beginlockmm:endlock,无法使用xpath解析内容

问题相关代码,请勿粘贴截图

下为html结构

<mm:beginlock translatorclass="xx" type="xx" orig="%3C!--#include file=%22xx.inc%22--%3E" fileref="xx.inc" depfiles="file://///xx.xx.xx.xx/d$/bb/zz/xx.inc"><meta http-equiv="Content-Type" content="text/html; charset=gb2312">
    <mm:endlock>...</mm:endlock>
</mm:beginlock>

下为爬虫代码

html = requests.get(url, headers=header)
selector = etree.HTML(html.text)
print(date_temp = selector.xpath('/html/body/mm:beginlock/mm:endlock/table/tbody/tr[2]/td[1]/text()'))
运行结果及报错内容

报错:lxml.etree.XPathEvalError: Undefined namespace prefix

我的解答思路和尝试过的方法

上网查询得知是xpath命名空间导致的,采用了两种方法仍未解决
1.忽略命名空间

html = requests.get(url, headers=header)
selector = etree.HTML(html.text)
print(selector.xpath('/html/body//*[name() = "mm:beginlock"]//*[name() = "mm:endlock"]/table/tbody/tr[2]/td[1]/text()))

输出结果:[]
2.节点前加命名空间的前缀

html = requests.get(url, headers=header)
selector = etree.HTML(html.text)
print(selector.xpath('/html/body/mm:beginlock/mm:endlock/table/tbody/tr[2]/td[1]', namespaces={"mm"="mm:"}))

编译器第三行标红报错:Cannot assign to function call

我想要达到的结果

用xpath解析带命名空间的html标签

  • 写回答

1条回答 默认 最新

  • ~白+黑 Python领域新星创作者 2022-04-13 18:49
    关注

    xml.etree.ElementTree --- ElementTree XML API
    基本库了解一下

    
    解析带有命名空间的 XML
    如果 XML 输入带有 命名空间,则具有前缀的 prefix:sometag 形式的标记和属性将被扩展为
    {uri}sometag,其中 prefix 会被完整 URI 所替换。并且,如果存在 默认命名空间,则完整 URI 会
    被添加到所有未加前缀的标记之前。
    下面的 XML 示例包含两个命名空间,一个具有前缀”fictional” 而另一个则作为默认命名空间:
    <?xml version="1.0"?>
    <actors xmlns:fictional="http://characters.example.com"
    xmlns="http://people.example.com">
    <actor>
    <name>John Cleese</name>
    <fictional:character>Lancelot</fictional:character>
    <fictional:character>Archie Leach</fictional:character>
    </actor>
    <actor>
    <name>Eric Idle</name>
    <fictional:character>Sir Robin</fictional:character>
    <fictional:character>Gunther</fictional:character>
    <fictional:character>Commander Clement</fictional:character>
    </actor>
    </actors>
    搜索和探查这个 XML 示例的一种方式是手动为find() 或findall() 的 xpath 中的每个标记或属性添
    加 URI:
    root = fromstring(xml_text)
    for actor in root.findall('{http://people.example.com}actor'):
    name = actor.find('{http://people.example.com}name')
    print(name.text)
    for char in actor.findall('{http://characters.example.com}character'):
    print(' |-->', char.text)
    一种更好的方式是搜索带命名空间的 XML 示例创建一个字典来存放你自己的前缀并在搜索函数中使用
    它们:
    ns = {'real_person': 'http://people.example.com',
    'role': 'http://characters.example.com'}
    for actor in root.findall('real_person:actor', ns):
    name = actor.find('real_person:name', ns)
    print(name.text)
    for char in actor.findall('role:character', ns):
    print(' |-->', char.text)
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 4月22日
  • 已采纳回答 4月14日
  • 创建了问题 4月13日

悬赏问题

  • ¥15 TMC2209串口模式下读取不到寄存器的值串口助手蓝色字体是发过去的消息,绿色字体是收到的消息,第二行发送读取寄存器的指令但是没有读取到寄存器的值串口助手如下图:接线如下图,如何解决?
  • ¥15 高通安卓11提取完整线刷包软件,或者优博讯dt50顺丰刷机包
  • ¥20 C,有个译码器,换了信道就跑不出原来数据
  • ¥15 MIMIC数据库安装问题
  • ¥60 基于JTag协议开发Fpga下载器上位机,哪位大🐂有偿指导?
  • ¥20 全书网Java爬取数据
  • ¥15 怎么获取红包封面的原始链接,并且获取红包封面序列号
  • ¥100 微信小程序跑脚本授权的问题
  • ¥100 房产抖音小程序苹果搜不到安卓可以付费悬赏
  • ¥15 STM32串口接收问题