想请教一下python爬虫中文乱码问题

小白最近在学爬虫，请问各位大哥们我想爬取的这句话“第一回·宴桃园豪杰三结义斩黄巾英雄首立功”为啥是乱码呢
我用利用正则解析下面这个
第一回·宴桃园豪杰三结义斩黄巾英雄首立功
代码如下，问题可能有些弱智，但恳请各位不吝赐教

import requests
import re

url = 'https://www.shicimingju.com/book/sanguoyanyi.html'
headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36 Edg/91.0.864.59"}
page_text = requests.get(url=url, headers=headers).text

ex = '<a href="/book/sanguoyanyi/1.html">(.*?)</a>'
text_data = re.findall(ex, page_text, re.S)
print(text_data)

这个是乱码情况：['ç¬¬ä¸\x80å\x9b\x9eÂ·å®´æ¡\x83å\x9b\xadè±ªæ\x9d°ä¸\x89ç»\x93ä¹\x89 æ\x96©é»\x84å·¾è\x8b±é\x9b\x84é¦\x96ç«\x8bå\x8a\x9f']

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
冰履踏青云 2021-07-02 23:09
关注
教你一招，请求数据之前先右键查看网页源代码，看看最上面的charset是啥，一般都是utf-8或者gbk的，要按它给的写程序，你这个网页是utf8编码，所以可以这样写，参考：

import requests import re url = 'https://www.shicimingju.com/book/sanguoyanyi.html' headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36 Edg/91.0.864.59"} res = requests.get(url=url, headers=headers) res.encoding='utf-8' page_text = res.text ex = '<a href="/book/sanguoyanyi/1.html">(.*?)</a>' text_data = re.findall(ex, page_text, re.S) print(text_data)
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 2
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

Python网络爬虫出现乱码问题的解决方法
2020-12-24 08:10

在实际的Python爬虫开发中，处理汉字编码问题时，可以采取以下步骤： 1. 使用`chardet`检测网页内容的原始编码。 2. 将原始内容解码为Unicode，即`decode()`操作。 3. 将Unicode内容编码为目标编码，如UTF-8，即`...
Python爬虫中文乱码问题
2022-11-07 15:10

摆烂刷题人的博客 Python爬虫中文乱码问题解决办法
2024年Python最新解决python爬虫中文乱码问题
2024-05-01 13:28

2401_84561420的博客也就是说text是解码完的数据，调用req.text(）就不需要解码了，问题经常出现解码中的类型码是否正确，这个下面在说，先明白text（）和content（）的区别。Python所有方向的技术点做的整理，形成各个领域的知识点汇总...
3种Python爬虫 中文乱码 的处理方法
2024-08-08 17:59

编程阿布的博客 Python爬虫在抓取网页数据时，经常会遇到中文乱码问题。这通常是因为网页的编码格式与Python处理时使用的编码格式不一致导致的。以下是三种常见的处理中文乱码的方法，并附上相应的代码示例。
盘点3种Python爬虫中文乱码的处理方法
2023-11-22 10:24

认真写程序的强哥的博客本文针对Python网络爬虫过程中的中文乱码问题，给出了3种乱码解决方法，顺利解决了问题。你还知道有哪些乱码的情况和处理方法，欢迎在评论区中留言。感兴趣的小伙伴，赠送全套Python学习资料，包含面试题、简历资料...
解决Python网页爬虫之中文乱码问题
2021-01-20 04:29

首先，我说一下Python中文乱码的原因，Python中文乱码是由于Python在解析网页时默认用Unicode去解析，而大多数网站是utf-8格式的，并且解析出来之后，python竟然再以Unicode字符格式输出，会与系统编码格式不同，...
Python爬虫中文乱码处理实例代码解析
2023-12-23 20:00

Sitin涛哥的博客在本文中，深入探讨了Python爬虫中处理中文乱码的各种方法，旨在帮助大家解决在网络数据抓取过程中常见的编码问题。这些问题可能导致数据解析不正确，影响到数据质量和可靠性。从明确指定编码、使用第三方库（如...
Python爬虫乱码问题
2024-03-26 21:11

ReverSe0930的博客 pyhton爬虫乱码解决思路： 1、比对html>head>meta中的charset设定的编码类型 2、设定为默认编码类型为所存储内容，response.encoding = 'UTF-8' 3with open('poems.txt','w',encoding='UTF-8') as f:写入的时候...
python爬虫 中文乱码 解决方案
2024-02-04 15:08

gsxb1的博客返回数据出现中文乱码，在使用Python练习网络爬虫技术的过程中，几乎比可避免，本文将使用chardet库，只通过代码的形式来解决这一难题的。
Python 爬虫 中文乱码一文通
2022-07-27 01:14

H-大叔的博客还在找python中文乱码的解决方法？来跟我学习，一文直接PASS。
没有解决我的问题, 去提问

想请教一下python爬虫中文乱码问题

3条回答 默认 最新

3条回答默认最新