python爬网页xpath有部分乱码问题

python爬网页xpath有部分乱码问题
首先网页编码为gb2312
我的代码如下

我将响应的数据改编码是utf-8
但是我爬出的数据里面有html标签
，它解码出来是这样

我想问怎么把\n\u3000\u3000转化为正常的

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

7*24 工作者 2023-12-16 09:38

关注


## 建议用requests模块

import requests
from lxml import etree


url = 'https://www.477zw.com/html/72/72213/37584358.html'
headers = {
    'User-Agent':"Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
    'Host':'www.477zw.com'
}


resp = requests.get(url,headers=headers).content.decode('utf-8')
html = etree.HTML(resp)
content = html.xpath('//div[@id="content"]/text()')
print(content)

报告相同问题？

关注问题

python爬虫关于xpath提取出来为空列表的问题 python 有问必答爬虫
2021-09-30 17:40

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
python爬虫xpath解析返回为空有什么解决方法吗 python 爬虫
2021-12-10 11:12

回答 1 已采纳为空的地方xpath主要是为了拿到什么数据，贴一下网页和要拿到的数据，帮你写一下xpath。上面图上的xpath那么长那么绝对路径，大概率拿不到数据的。
在Python中xpath爬图片src有问题 python
2022-09-27 00:17

回答 5 已采纳 import urllib.request from lxml import etree def create_request(page): if (page == 1):
Python爬虫详解：原理、常用库与实战案例
2024-04-01 13:30

雪碧有白泡泡的博客通过本文的讲解，相信读者已经对Python爬虫有了较为全面的认识。爬虫技能在数据分析、自然语言处理等领域具有广泛的应用，希望读者能够动手实践，不断提高自己的技能水平。同时，请注意合法合规地进行爬虫，遵守相关...
python爬虫通过xpath无法正常解析欲爬取元素 html python 爬虫
2022-01-04 18:04

回答 1 已采纳我是JAVA的xpath html.xpath("//table[@id='main_table_countries_today']/tbody/tr[@style=' ']").你看着修改下
Python爬虫 xpath 列表为空 python 有问必答爬虫
2022-03-08 08:32

回答 2 已采纳第二个li的div下少了结束标签导致etree解析出错了少了div结束标签后，etree将建筑类别后的几点全部归类到第二li下了，改下面这样就可以了 import requests from lxm
有谁能够解答吗 Python爬虫 XPath python 爬虫
2021-11-21 00:19

回答 2 已采纳你需要先确定返回的响应内容中有没有这些分类信息，有的话则是xpath没写对。没有分类信息的话，需要在请求时构造和浏览器相同的请求头信息。爬虫逆向社区-爬虫逆向论坛-
Python使用requests xpath 并开启多线程爬取西刺代理ip实例
2020-09-17 18:33

- **Python**: 高级编程语言，易于学习且功能强大。 - **Requests**: Python中用于发送HTTP请求的库，简单易用。 - **XPath**: 一种用于在XML文档中查询和定位元素的语言，同样适用于HTML。 - **Lxml**: Python中...
Python爬虫只解析了一部分网页？ python 爬虫
2021-11-19 14:39

回答 1 已采纳第一个问题，你用html.xpath('//div[@class="co_content8"]/ul/table')找不到，是因为在table那一类，有很多分支标签，所以定位不到具体的元素。第二个问题
python+selenium+xpath如何定位网页table表格中的数据 python selenium 有问必答爬虫
2022-02-25 12:44

回答 2 已采纳使用last()定位最后一个tr节点，再用索引获取。示例： from lxml import etree with open('a.html','r',encoding='utf-8') as f:
python爬虫，etree模块有问题 python 爬虫
2022-07-02 00:17

回答 1 已采纳你HtML 中T写成小写了, HTML应该是全大写另外 li 是 Element元素不能与字符串拼接. 需要用li.text获取元素中的文本print(li+'\n')fp.write(li+'\
Python_爬取文本内容中文乱码解决方案
2022-02-27 16:23

小枫Geek的博客方案一(手动设定响应数据的编码格式)： url='输入url' response=requests.get(url=url,headers=...img_name=li.xpath('./a/img/@alt')[0]+'.jpg' #通用处理中文乱码的解决方案 img_name=img_name.encode('iso-8
python如何用xpath取两个标签之间的内容 python 爬虫
2022-05-18 17:43

回答 3 已采纳 //span[text()="名字:"]/following::a[position()<count(//span[text()="名字:"]/following::a)-count(//spa
Python实战——轻松实现动态网页爬虫(附详细源码)
2024-07-30 15:54

东眠的鱼的博客 AJAX动态加载网页一、什么是动态网页所谓的动态网页，是指跟静态网页相对的一种网页编程技术。静态网页，随着html代码的生成，页面的内容和显示效果就基本上不会发生变化了——除非你修改页面代码。而动态网页则...
Python爬虫：捕获网页表格数据的终极指南
2024-08-18 22:49

2401_85761003的博客 Python作为一种强大的编程语言，通过其丰富的库和框架，可以高效地抓取和处理网页中的表格数据。通过本文的学习，读者应能掌握使用Python抓取网页表格数据的基本方法，并能根据实际需求进行拓展和优化。在使用Python...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月16日

悬赏问题

¥15 python怎么在已有视频文件后添加新帧
¥20 虚幻UE引擎如何让多个同一个蓝图的NPC执行一样的动画,
¥15 fluent里模拟降膜反应的UDF编写
¥15 MYSQL 多表拼接link
¥15 关于某款2.13寸墨水屏的问题
¥15 obsidian的中文层级自动编号
¥15 同一个网口一个电脑连接有网，另一个电脑连接没网
¥15 神经网络模型一直不能上GPU
¥15 pyqt怎么把滑块和输入框相互绑定，求解决！
¥20 wpf datagrid单元闪烁效果失灵

python爬网页xpath有部分乱码问题

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新