python爬网页xpath有部分乱码问题
首先网页编码为gb2312
我的代码如下
我将响应的数据改编码是utf-8
但是我爬出的数据里面有html标签
,它解码出来是这样
我想问怎么把\n\u3000\u3000转化为正常的
python爬网页xpath有部分乱码问题
首先网页编码为gb2312
我的代码如下
我想问怎么把\n\u3000\u3000转化为正常的
## 建议用requests模块
import requests
from lxml import etree
url = 'https://www.477zw.com/html/72/72213/37584358.html'
headers = {
'User-Agent':"Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
'Host':'www.477zw.com'
}
resp = requests.get(url,headers=headers).content.decode('utf-8')
html = etree.HTML(resp)
content = html.xpath('//div[@id="content"]/text()')
print(content)