lxml.etree.HTML()解析网页丢失内容

使用requests爬取的网页，保存后可以搜到我要的元素，但是使用lxml.etree.HTML()解析后定位不到该元素，通过定位它父级元素发现，父级下面的子元素丢掉了一部分，再通过lxml.etree.tostring()将解析后的网页保存下来，也搜不到该元素，可以确定是lxml.etree.HTML()解析丢失内容，通过lxml.parse()解析本地保存的网页也无法找到该元素，仍然丢失内容，lxml.etree解析存在问题，请问怎么解决？
（请不要定位head里面的描述，必须定位红框中的位置，解决lxml.etree.HTML()解析丢失内容的问题）

import requests
from lxml import etree

headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36 Edg/112.0.1722.58',
    'referer':'https://www.ad.siemens.com.cn',
}

def parse_detail():
    url = 'https://www.ad.siemens.com.cn/service/answer/solve_286822_1077.html'
    res = requests.get(url,headers=headers)
    with open('detail.html','w',encoding='utf-8') as f:
        f.write(res.text)
    html = etree.HTML(res.content)
    content = html.xpath('//*[@class="extra-wide-answer"]')[0]
    title = ''.join(content.xpath('//div[@class="top-title"]/div[1]/h1/text()')).strip()   # 问题标题
    description = html.xpath('/html/body/div[4]/div[2]/div[3]/div[8]/p[4]/text()')  # 问题描述

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
a884248221 2023-04-27 15:27
关注
判断解析出现问题的根本原因是网页内容在爬取和解析过程中可能被修改或丢失。针对这种情况，可以尝试使用其他HTML解析库（如BeautifulSoup等）再次解析，或者使用正则表达式进行匹配。另外，可以记录下未解析到目标元素的网页源代码，检查是否存在类似于嵌套不当、HTML语法错误等问题。
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
上面是BeautifulSoup我之前收藏的文档，挺好用的
而根据您提供的Python代码，代码中的问题大概率出现在以下行：

content = html.xpath('//*[@class="extra-wide-answer"]')[0]
description = html.xpath('/html/body/div[4]/div[2]/div[3]/div[8]/p[4]/text()')

其中content = html.xpath('//*[@class="extra-wide-answer"]')[0]使用了相对路径，可能匹配到了多个元素；而下一行description = html.xpath('/html/body/div[4]/div[2]/div[3]/div[8]/p[4]/text()')使用了绝对路径，定位具体位置可能有误。建议尝试以下方法进行解决：

使用更具体的XPath定位目标元素，例如：

content = html.xpath('//div[@class="extra-wide-answer"]/node()')
description = html.xpath('//p[@class="regular-text-info"]/text()')

尝试使用BeautifulSoup等其他HTML解析库，比较一下解析后的结果是否一致；

检查网页源代码，确认该元素确实存在并且没有被动态加载替换。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python报错：lxml.etree.XPathEvalError: Invalid expression，如何解决？ python 有问必答
2022-03-30 23:22

回答 2 已采纳 Bigtit_list = html.xpath('//<div[@class="book-mid-info"]/h2/a/text()') div前面的<去掉改成 Bigtit_li
想请教一下，为啥使用lxml.etree.HTML()，解析出来的是个空[ ],, python
2022-05-27 09:44

回答 2 已采纳先打印网页文本，看看有没有这个数据，没有就是反爬了！
lxml 解析的时候：lxml.etree.XMLSyntaxError: Start tag expected, '<' not found, line 1, col python xml
2022-08-31 12:09

回答 2 已采纳 lxml.etree.XMLSyntaxError: Start tag expected, '<' not found, line 1, column 1有特殊字符，需要转义处理一下，具体可以
ru_address：ПолнаяконвертацияФИАСXML或SQLдамп
2021-02-06 14:30

Python中的xml.etree.ElementTree或lxml库可以方便地读取、解析和操作XML文档。 "ru_address-master"这个文件名可能代表项目的主分支或主目录，通常在Git版本控制系统中，"master"是默认的分支名，表示项目的主线...
lxml.etree有个getchildren()的方法被废弃了，那该用什么来替代？ python
2019-03-29 23:11

回答 2 已采纳没想到最后还是要靠自力更生啊。。。等了2天只有楼上刷了个莫名其妙问东答西的答案，可能是我问的比较没水平吧不过这个问题我是彻底弄明白了，写出来给后面的有缘人首先，我之前自己没有我完全搞懂xpat
Python无法使用xpath解析带命名空间的html标签 html python 爬虫
2022-04-13 10:57

回答 1 已采纳 xml.etree.ElementTree --- ElementTree XML API基本库了解一下解析带有命名空间的 XML 如果 XML 输入带有命名空间，则具有前缀的 prefix:s
python的xpath问题 python 有问必答
2022-04-06 14:17

回答 4 已采纳 import requests from lxml import etree url = "http://finance.sina.com.cn/zl/china/2022-04-06/zl-im
Spider爬虫笔记[更新中...]
2020-08-31 15:36

Sami9的博客 urllib库是python中最基本的一个网页请求库，可以模拟浏览器行为，向指定的服务器发送一个请求，并可以保存服务器返回的数据。 request下的urlopen()和urlretrieve() urlopen() from urllib import request # ...
这个报错是什么意思？要怎么解决？ python vscode
2022-09-02 09:58

回答 3 已采纳你的Xpath不对，按F12，选中需要提取的xpath，右键复制xpath，
python xpath解析报错，etree.HTML python 有问必答
2021-05-17 19:37

回答 3 已采纳经测试在vscode终端代码运行正常，尝试升级lxml版本，代码中还有个小问题，在img_name=li.xpath('./a/img/@alt')[0]+'jpg'的jpg前面要加个点，即.jpg，
python爬虫，etree模块有问题 python 爬虫
2022-07-02 00:17

回答 1 已采纳你HtML 中T写成小写了, HTML应该是全大写另外 li 是 Element元素不能与字符串拼接. 需要用li.text获取元素中的文本print(li+'\n')fp.write(li+'\
Python 常见170道面试题解析
2020-01-03 11:38

Ace96的博客文章目录基础语言特性编码规范数据类型字符串列表字典综合操作类题目高级特性正则表达式其他内容算法和数据结构爬虫相关网络编程并发Git 面试题基础 1.列出 5 个常用 Python 标准库？ os：提供了不少与操作系统相...
关于python爬虫的问题，如何解决？ python 爬虫
2022-09-24 14:13

回答 1 已采纳可以看下python参考手册中的 python- 接下来？
python 学习指南_Python类型检查终极指南
2020-07-13 22:35

cumei1658的博客所有编程语言都包括某种类型系统，该系统形式化了可以使用的对象类别以及如何对待这些类别。例如，类型系统可以定义数字类型，其中42是数字类型对象的一个示例。动态打字 (Dynamic Typing) Python is a ...
python基础笔记，超详细，包含面向对象基础，爬虫实战【持续更新中...】
2023-04-01 23:40

夜的旋粒_的博客本笔记中的函数和方法同义本笔记概念及代码由newbing搜集整理得出本笔记适合有一定其他编程语言基础的同学，因为笔记中省略了部分基础概念（比如整型，浮点型等基本数据类型的介绍）如果有错误，欢迎在评论区指出，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 4月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 4月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 4月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月27日

悬赏问题

¥200 csgo2的viewmatrix值是否还有别的获取方式
¥15 Stable Diffusion，用Ebsynth utility在视频选帧图重绘，第一步报错，蒙版和帧图没法生成，怎么处理啊
¥15 请把下列每一行代码完整地读懂并注释出来
¥15 pycharm运行main文件，显示没有conda环境
¥15 寻找公式识别开发，自动识别整页文档、图像公式的软件
¥15 为什么eclipse不能再下载了？
¥15 编辑cmake lists 明明写了project项目名，但是还是报错怎么回事
¥15 关于#计算机视觉#的问题：求一份高质量桥梁多病害数据集
¥15 特定网页无法访问，已排除网页问题
¥50 如何将脑的图像投影到颅骨上

lxml.etree.HTML()解析网页丢失内容

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新