想请教一下python爬虫中文乱码问题

小白最近在学爬虫，请问各位大哥们我想爬取的这句话“第一回·宴桃园豪杰三结义斩黄巾英雄首立功”为啥是乱码呢
我用利用正则解析下面这个
第一回·宴桃园豪杰三结义斩黄巾英雄首立功
代码如下，问题可能有些弱智，但恳请各位不吝赐教

import requests
import re

url = 'https://www.shicimingju.com/book/sanguoyanyi.html'
headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36 Edg/91.0.864.59"}
page_text = requests.get(url=url, headers=headers).text

ex = '<a href="/book/sanguoyanyi/1.html">(.*?)</a>'
text_data = re.findall(ex, page_text, re.S)
print(text_data)

这个是乱码情况：['ç¬¬ä¸\x80å\x9b\x9eÂ·å®´æ¡\x83å\x9b\xadè±ªæ\x9d°ä¸\x89ç»\x93ä¹\x89 æ\x96©é»\x84å·¾è\x8b±é\x9b\x84é¦\x96ç«\x8bå\x8a\x9f']

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
冰履踏青云 2021-07-02 23:09
关注
教你一招，请求数据之前先右键查看网页源代码，看看最上面的charset是啥，一般都是utf-8或者gbk的，要按它给的写程序，你这个网页是utf8编码，所以可以这样写，参考：

import requests import re url = 'https://www.shicimingju.com/book/sanguoyanyi.html' headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36 Edg/91.0.864.59"} res = requests.get(url=url, headers=headers) res.encoding='utf-8' page_text = res.text ex = '<a href="/book/sanguoyanyi/1.html">(.*?)</a>' text_data = re.findall(ex, page_text, re.S) print(text_data)
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 2
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

想请教一下python爬虫中文乱码问题 python 有问必答正则表达式
2021-07-02 22:54

回答 3 已采纳教你一招，请求数据之前先右键查看网页源代码，看看最上面的charset是啥，一般都是utf-8或者gbk的，要按它给的写程序，你这个网页是utf8编码，所以可以这样写，参考： import reque
python爬虫乱码问题怎么解决 python
2022-04-20 16:13

回答 2 已采纳 with open ("mybaidu.html", mode = "w", encoding = "utf-8")这里面填一个encoding就好了
一个python requests 爬虫遇到乱码的问题 python 爬虫
2022-01-24 15:24

回答 2 已采纳 jsonData='{"\u6d4b\u8bd5": 12345, "\u5185\u5bb9": ["\u6211\u4e5f\u4e0d\u77e5\u9053\u6211\u8981\u5199
Python网络爬虫出现乱码问题的解决方法
2020-12-24 08:10

关于爬虫乱码有很多各式各样的问题，这里不仅是中文乱码，编码转换、还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为解决方式是一致的，故在此统一说明。网络爬虫出现乱码的原因源网页编码和爬取下来...
Python 爬虫乱码 python 开发语言
2023-01-25 13:07

回答 3 已采纳有点怪，源代码在我的环境里运行后，没有乱码。想了想，有可能是如下原因导致乱码：（1）在用户未知的情况下，环境自动按某种格式编译了内容，然后在反复、不对应的编译格式转换下出现乱码。（2）指定的编码格
怎么解决python爬虫写入txt文件时出现的中文乱码问题 python 有问必答
2021-05-30 23:14

回答 2 已采纳在download函数代码中添加一行：r.encoding=r.apparent_encoding即可。 def download(self, url): r = requests.get
python爬虫中网页出现乱码如何解决？ python
2021-09-21 22:16

回答 1 已采纳 request.encoding = request.apparent_encoding
Python爬虫中文乱码问题
2022-11-07 15:10

摆烂刷题人的博客 Python爬虫中文乱码问题解决办法
python中requests库中文乱码问题 html python 爬虫
2022-08-22 09:50

回答 5 已采纳设置一下编码集就行了： import requests url = 'https://www.baidu.com/s?%27' headers = { 'User-Agent': 'Mozilla
python3爬虫出现文字乱码以及抓取不了全部数据 python
2020-09-18 13:51

回答 2 已采纳导入sys和io，然后 sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') #改变标准输出的默认编码
python爬虫，账号反爬怎么处理 python 爬虫
2021-09-08 19:39

回答 3 已采纳目前来看，账号反爬没有什么太好的应对措施。一旦你的账号确定被反爬了，就只能更换账号了，或者和网站客服沟通。对于账号反爬网站，一般来说，就是ip代理池和账号随机混用，还需要保证ip的质量，地域差异不要太
解决Python网页爬虫之中文乱码问题
2021-01-20 04:29

首先，我说一下Python中文乱码的原因，Python中文乱码是由于Python在解析网页时默认用Unicode去解析，而大多数网站是utf-8格式的，并且解析出来之后，python竟然再以Unicode字符格式输出，会与系统编码格式不同，...
python爬虫爬取网页为什么获得的不是正常网页数据 python 爬虫
2022-05-12 14:48

回答 2 已采纳这代码里面好多错误，你是怎么运行成功的？
盘点3种Python爬虫中文乱码的处理方法
2023-11-22 10:24

认真写程序的强哥的博客本文针对Python网络爬虫过程中的中文乱码问题，给出了3种乱码解决方法，顺利解决了问题。你还知道有哪些乱码的情况和处理方法，欢迎在评论区中留言。感兴趣的小伙伴，赠送全套Python学习资料，包含面试题、简历资料...
Python 爬虫 中文乱码一文通
2022-07-27 01:14

H-大叔的博客还在找python中文乱码的解决方法？来跟我学习，一文直接PASS。
没有解决我的问题, 去提问

悬赏问题

¥15 如何用Labview在myRIO上做LCD显示？(语言-开发语言)
¥15 Vue3地图和异步函数使用
¥15 C++ yoloV5改写遇到的问题
¥20 win11修改中文用户名路径
¥15 win2012磁盘空间不足,c盘正常，d盘无法写入
¥15 用土力学知识进行土坡稳定性分析与挡土墙设计
¥70 PlayWright在Java上连接CDP关联本地Chrome启动失败,貌似是Windows端口转发问题
¥15 帮我写一个c++工程
¥30 Eclipse官网打不开，官网首页进不去，显示无法访问此页面，求解决方法
¥15 关于smbclient 库的使用

想请教一下python爬虫中文乱码问题

3条回答 默认 最新

悬赏问题

3条回答默认最新