ppoiierr 2023-12-16 00:49 采纳率: 40%
浏览 5

python爬网页xpath有部分乱码问题

python爬网页xpath有部分乱码问题
首先网页编码为gb2312
我的代码如下

img


我将响应的数据改编码是utf-8
但是我爬出的数据里面有html标签
,它解码出来是这样

img

img

我想问怎么把\n\u3000\u3000转化为正常的

  • 写回答

2条回答 默认 最新

  • 7*24 工作者 2023-12-16 09:38
    关注
    
    ## 建议用requests模块
    
    import requests
    from lxml import etree
    
    
    url = 'https://www.477zw.com/html/72/72213/37584358.html'
    headers = {
        'User-Agent':"Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
        'Host':'www.477zw.com'
    }
    
    
    resp = requests.get(url,headers=headers).content.decode('utf-8')
    html = etree.HTML(resp)
    content = html.xpath('//div[@id="content"]/text()')
    print(content)
    
    评论

报告相同问题?

问题事件

  • 创建了问题 12月16日

悬赏问题

  • ¥15 python怎么在已有视频文件后添加新帧
  • ¥20 虚幻UE引擎如何让多个同一个蓝图的NPC执行一样的动画,
  • ¥15 fluent里模拟降膜反应的UDF编写
  • ¥15 MYSQL 多表拼接link
  • ¥15 关于某款2.13寸墨水屏的问题
  • ¥15 obsidian的中文层级自动编号
  • ¥15 同一个网口一个电脑连接有网,另一个电脑连接没网
  • ¥15 神经网络模型一直不能上GPU
  • ¥15 pyqt怎么把滑块和输入框相互绑定,求解决!
  • ¥20 wpf datagrid单元闪烁效果失灵