groot0077 2019-06-26 15:11 采纳率: 0%
浏览 4002

爬虫返回的response内容完整,但是用etree.HTML解析后,内容就变少了,导致不能用xpath定位,是为啥?

1、爬虫返回的response内容完整,但是用etree.HTML解析后,内容就变少了,导致不能用xpath定位,是为啥?

import requests
from lxml import etree


url = "https://tieba.baidu.com/f?fr=wwwt&kw=%E4%B8%8D%E8%89%AF%E4%BA%BA"

headers = {
    "User-Agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36"
}

response = requests.get(url,headers=headers).content.decode()
print(response)
html_str = etree.HTML(response)
print(etree.tostring(html_str).decode())
# li = html_str.xpath("//ul[@id='thread_list']/li[@class='j_thread_list clearfix']")
# print(li)



  • 写回答

2条回答

  • 记录ljj成长之路 2019-09-26 11:37
    关注

    他返回的网页内容中,你真正要的内容代码被注释掉了,虽然返回的是完整网页内容,但你用etree.HTML解析后,有用的内容就被清除掉了,所以用不了xpath,我也遇到了这个坑,用正则解析应该能获取到内容

    评论

报告相同问题?

悬赏问题

  • ¥15 求chat4.0解答一道线性规划题,用lingo编程运行,第一问要求写出数学模型和lingo语言编程模型,第二问第三问解答就行,我的ddl要到了谁来求了
  • ¥15 Ubuntu在安装序列比对软件STAR时出现报错如何解决
  • ¥50 树莓派安卓APK系统签名
  • ¥15 maple软件,用solve求反函数出现rootof,怎么办?
  • ¥65 汇编语言除法溢出问题
  • ¥15 Visual Studio问题
  • ¥20 求一个html代码,有偿
  • ¥100 关于使用MATLAB中copularnd函数的问题
  • ¥20 在虚拟机的pycharm上
  • ¥15 jupyterthemes 设置完毕后没有效果