LVYOYO243 2022-05-31 21:10 采纳率: 100%

已结题

为什么我爬取的内容是乱码

import requests
from lxml import etree
url="https://www.haodf.com/doctor/list.html%22
head={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) "
"AppleWebKit/537.36 (KHTML, like Gecko) "
"Chrome/86.0.4240.198 Safari/537.36"}
f=open('大夫.csv','w',encoding='gb18030')
f.writelines('姓名,职位,单位,科室,疗效,态度,擅长,在线问诊,预约挂号\n')

def getdata(url):
res=requests.get(url,headers=head)
res.encoding='utf-8'
print(res.status_code)
html=res.text
res.encoding=res.apparent_encoding
htmlele = etree.HTML(html)

姓名

name=htmlele.xpath('/html/body/div[2]/div/div[1]/div[2]/ul/li[*]/div/div/p[1]/span[1]/a/text()')
print(name)

职位

zhiwei=htmlele.xpath('/html/body/div[2]/div/div[1]/div[2]/ul/li[*]/div/div/p[1]/span[2]/text()')
print(zhiwei)

#单位

address=htmlele.xpath('/html/body/div[2]/div/div[1]/div[2]/ul/li[*]/div/div/p[2]/text()')
print(address)

#科室

keshi=htmlele.xpath('/html/body/div[2]/div/div[1]/div[2]/ul/li[*]/div/div/p[2]/span/text()')
print(keshi)

#疗效

good=htmlele.xpath('/html/body/div[2]/div/div[1]/div[2]/ul/li[*]/div/div/div/p[1]/span[3]')
print(good)

#态度：

servers=htmlele.xpath('/html/body/div[2]/div/div[1]/div[2]/ul/li[*]/div/div/div/p[2]/span[3]')
print(servers)

#擅长

nice=htmlele.xpath('/html/body/div[2]/div/div[1]/div[2]/ul/li[*]/div/div/p[3]/text()')
print(nice)

#在线问诊

money=htmlele.xpath('/html/body/div[2]/div/div[1]/div[2]/ul/li[*]/div/div/span[1]/span')
print(money)

#预约挂号

telephone=htmlele.xpath('/html/body/div[2]/div/div[1]/div[2]/ul/li[*]/div/div/span[2]/span')
print(telephone)

for i in range(0,10):
url = 'https://www.haodf.com/doctor/list.html?p=%27+str(i)
getdata(url)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
王辉辉的猫 2022-06-01 11:07
关注
这行去掉就行了

res.encoding='utf-8'
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

python爬取内容乱码_Python爬取网站返回的内容为乱码解决方法
2021-03-06 16:06

SUN也行的博客 1、爬取某网站内容时，返回的结果为乱码，如图：2、写在前面的解释Requests会基于HTTP头部响应的编码做出有根据的推测，当访问r.text时，Requests会使用其推测的文本编码。查看网页返回的字符集类型：r.apparent_...
python爬取内容乱码_python爬取html中文乱码
2020-11-30 12:08

weixin_39756273的博客环境：python3.6爬取代码：import requestsurl = 'https://www.dygod.net/html/tv/hytv/'req = requests.get(url)print(req.text)爬取...title内容出现乱码，自己感觉应该是编码的问题，但是不知道如何解决，于是上...
python爬取内容乱码_Python爬取网页requests乱码
2020-11-30 12:08

weixin_39647499的博客问题**之前有在裁判文书上爬取数据，这段时间重新运行爬虫后发现无法获取网页数据，找了一下发现requests网页源码返回的是乱码**（如下截取一部分返回的数据：...
python爬虫爬取内容为乱码（解决方法）
2021-01-09 19:19

罗工之路的博客我们下要先当我们获取的内容为乱码是是因为什么导致的，可能是requests.text的解码方式不正确，要看html中的字符编码方式。点击F12——>点进Console——>输入document.charset 如图看见编码格式是“GBK” 这.
python爬取小说出现乱码_Python爬虫爬出来的中文是乱码解决方法
2021-02-10 18:13

Hi-iD的博客 up的系统是win10，python版本3.7，浏览器是chrome尝试爬小说的时候出现了乱码。。。解决方法1：网页编码方式不同进入自己需要爬去的网页，按F12(不同浏览器不一样)进入该1-1页面：点击head前方的小三角1-2就可以看到...
python爬取音乐是乱码_Python爬取中文页面的时候出现的乱码问题
2020-12-02 22:11

weixin_39802519的博客一、读取返回的页面数据在浏览器打开的时候查看源代码，如果在头部信息中指定了UTF-8那么再python代码中读取页面信息的时候，就需要指定读取的编码方式：response.read().decode('utf-8')二、把中文数据写入到文件的...
python爬虫爬取网页中文乱码问题的解决
2024-11-17 11:24

兜兜转转入行的开发者的博客【代码】python爬虫爬取网页中文乱码问题的解决。
Python Requests_html爬取51jobs网python岗位信息.py
2020-04-19 10:43

Python，通过Reauests_html库，爬取51jobs网站python岗位招聘信息，实例代码。
python爬虫时遇到乱码，以及动态显示的数据无法爬取
2024-07-05 11:41

序列02的博客在爬取的时候有很多种乱码，我遇到的是类似ÉÌÆ·ÁÐ±í-Ó¢ÐÛÁªÃËµÀ¾Û³Ç这种的，在查找资料后是以读取gbk导致的，最后解决办法是发送get请求后通过这个代码就可以显示出来，乱码有很多种，其他更...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月9日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 6月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月31日