爬虫返回的response内容完整，但是用etree.HTML解析后，内容就变少了，导致不能用xpath定位，是为啥？

1、爬虫返回的response内容完整，但是用etree.HTML解析后，内容就变少了，导致不能用xpath定位，是为啥？

import requests
from lxml import etree


url = "https://tieba.baidu.com/f?fr=wwwt&kw=%E4%B8%8D%E8%89%AF%E4%BA%BA"

headers = {
    "User-Agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36"
}

response = requests.get(url,headers=headers).content.decode()
print(response)
html_str = etree.HTML(response)
print(etree.tostring(html_str).decode())
# li = html_str.xpath("//ul[@id='thread_list']/li[@class='j_thread_list clearfix']")
# print(li)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
记录ljj成长之路 2019-09-26 11:37
关注
他返回的网页内容中，你真正要的内容代码被注释掉了，虽然返回的是完整网页内容，但你用etree.HTML解析后，有用的内容就被清除掉了，所以用不了xpath，我也遇到了这个坑，用正则解析应该能获取到内容

解决 4
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python xpath解析报错，etree.HTML python 有问必答
2021-05-17 19:37

回答 3 已采纳经测试在vscode终端代码运行正常，尝试升级lxml版本，代码中还有个小问题，在img_name=li.xpath('./a/img/@alt')[0]+'jpg'的jpg前面要加个点，即.jpg，
python报错：lxml.etree.XPathEvalError: Invalid expression，如何解决？ python 有问必答
2022-03-30 23:22

回答 2 已采纳 Bigtit_list = html.xpath('//<div[@class="book-mid-info"]/h2/a/text()') div前面的<去掉改成 Bigtit_li
python使用xpath爬取网络数据报表结果为空 python 开发语言有问必答
2021-10-23 17:12

回答 3 已采纳该页面数据在XHR中找，构建一下headers和params，使用如下方式获json数据，然后从中解析即可： response = requests.get('https://fr.oppein.co
爬虫踩坑系列——etree.HTML解析异常
2019-08-13 15:02

jackandsnow的博客爬虫过程中，一般会使用requests.get()方法获取一个网页上的HTML内容，然后通过lxml库中的etree.HTML来解析这个网页的结构，最后通过xpath获取自己所需的内容。本人爬虫的具体代码可简单抽象如下： res = requests...
Python爬虫requests.get方法无法显示div中折叠内容 https python 有问必答爬虫
2021-11-27 19:16

回答 2 已采纳该页面数据是动态加载的，需要用此链接用post请求去获取https://www.xuetangx.com/api/v1/lms/get_product_list/?page=1
python爬虫，etree模块有问题 python 爬虫
2022-07-02 00:17

回答 1 已采纳你HtML 中T写成小写了, HTML应该是全大写另外 li 是 Element元素不能与字符串拼接. 需要用li.text获取元素中的文本print(li+'\n')fp.write(li+'\
python爬虫爬小说时，爬了一百多张就会报错，从新启动后爬取速度变慢了 python 有问必答爬虫
2022-08-17 20:13

回答 5 已采纳可能是访问次数频繁，被禁止访问，解决方法：使用代理 python 关于Max retries exceeded with url 的错误_Lucas__liu的博客-C
【Python技巧】爬虫网站，lxml中的etree不能定位到信息内容，原因是chrome阅览器自动添加tbody标签
2022-12-13 11:40

你别说了多动脑子的博客当我在爬虫某报刊列表名称的时候发现，lxml中的etree解析response.text，得到的结果是一个空列表，具体问题如下：首先通过chrome定位要爬取列表位置：根据上图，我们可知，xpath为：根据xpath位置制作python代码：...
从浏览器复制的xpath为什么打出来是个空列表 python 有问必答爬虫
2022-05-13 15:29

回答 2 已采纳积存金是用iframe加载的，在下面这个页面里面https://mybank.icbc.com.cn/icbc/newperbank/perbank3/gold/goldaccrual_query_o
爬虫搜索出来内容是JS封装 python 数据挖掘问答团队
2021-03-05 10:29

回答 2 已采纳用requests.post(‘...getFullTextData’，headers=headers,cookies=cookies,data=data),要把请求头,cookies和请求参数传递进
运用xpath进行，每次都只能运行出来一个数据 python
2022-08-08 12:11

回答 2 已采纳原因是列表div_tag只有一项, 而变量title, piaofang有很多项。改成这样: import requests from lxml import etree import csv ur
Python爬虫【如何爬取内容（html）和解析内容】
2018-11-18 22:40

青果HA的博客 1 基础 HTML解析：定位基础是xpath，了解下面的链接的基本知识。 http://www.w3school.com.cn/xpath/xpath_syntax.asp 在python中使用HTML解析等操作时，需要安装lxml包，在...html = etree.HTML(response.tex...
python爬虫返回的是<Element div at 0x2751c6ecc80> python
2021-07-22 20:38

回答 4 已采纳你这个打印的不对，你打印的是 DOM 节点的对象，你应该取这个div的text() 或者 html() 内容才对。 print(data.text) 试一试
快速入门XPath语法，轻松解析爬虫时的HTML内容
2022-08-06 08:15

小斌哥ge的博客快速入门XPath语法，轻松解析爬虫时的HTML内容。
爬虫（etree+xpath）
2022-03-31 16:09

来也空空去也空空的博客之前是对单个元素进行了爬取，这次...from lxml import etree #爬取目标电影类型以及url #首先是获取目标网页的内容 sum_http = 'https://www.dy2018.com/' response = requests.get(sum_http) response.encodin.
go语言爬虫解析html,Python爬虫【如何爬取内容（html）和解析内容】-Go语言中文社区...
2021-06-09 12:38

梅凡惱的博客在python中使用HTML解析等操作时，需要安装lxml包，在pycharm的terminal下：pip install lxml最重要的两个函数是：html = etree.HTML(response.text) 获取到响应的内容后，采用etree的HTML方法，返回DOM树型结构的根...
Python爬虫记录-etree.HTML解析数据异常
2024-04-07 18:06

Konsh的博客这几天帮朋友写一个爬虫。可能因为太久没写爬虫了，总是遇到一些奇奇怪怪的问题，也可能是因为时间太久以至于忘了一些原理或者机制了。所以记录一下，防止以后遇到了又不知道是什么原因导致的。
xpath无法解析部分javascript内嵌HTML页面，获取结果为空问题
2020-06-28 21:19

旧时光下的浮影的博客在工作中，碰到在页面中html为xpath可解析的格式，但是在实际脚本获取中却获取不到的情况，通过查看网页源代码发现该部分内容为<script>标签对嵌入页面显示，改为如下两种获取方式： xpath+正则将获取到的...
python 中获取数据etree.HTML打印问题
2021-09-01 11:17

白叔King的博客废话不多说，直接开干！遇到问题python 请求数据转换etree.HTML ，需要打印看一下正常数据问题是 <Element div at 0xaeef7c8> #怎么看数据于是乎百度一下 response = requests.get(url=url.format(i), ...
python爬虫基础(二)～工具包: 下载包requests、urllib和解析包BeautifulSoup(bs4)、lxml.etree.xpath
2021-05-30 09:05

天狼啸月1990的博客 html中的一个标签，用BeautifulSoup就能解析出Tag的具体内容，具体格式为soup.name BeautifulSoup对象。整个html文本对象，可当作Tag对象 NavigableString对象。 Comment对象。 BeautifulSoup对象声明方法：字符串、...
没有解决我的问题, 去提问

悬赏问题

¥15 没有证书，nginx怎么反向代理到只能接受https的公网网站
¥50 成都蓉城足球俱乐部小程序抢票
¥15 yolov7训练自己的数据集
¥15 esp8266与51单片机连接问题(标签-单片机|关键词-串口)（相关搜索：51单片机|单片机|测试代码）
¥15 电力市场出清matlab yalmip kkt 双层优化问题
¥30 ros小车路径规划实现不了，如何解决？(操作系统-ubuntu)
¥20 matlab yalmip kkt 双层优化问题
¥15 如何在3D高斯飞溅的渲染的场景中获得一个可控的旋转物体
¥88 实在没有想法，需要个思路
¥15 MATLAB报错输入参数太多

爬虫返回的response内容完整，但是用etree.HTML解析后，内容就变少了，导致不能用xpath定位，是为啥？

2条回答 默认 最新

悬赏问题

2条回答默认最新