m0_52277682 2021-07-02 22:54 采纳率: 50%
浏览 82
已采纳

想请教一下python爬虫中文乱码问题

小白最近在学爬虫,请问各位大哥们我想爬取的这句话“第一回·宴桃园豪杰三结义 斩黄巾英雄首立功”为啥是乱码呢
我用利用正则解析下面这个
第一回·宴桃园豪杰三结义 斩黄巾英雄首立功
代码如下,问题可能有些弱智,但恳请各位不吝赐教

import requests
import re

url = 'https://www.shicimingju.com/book/sanguoyanyi.html'
headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36 Edg/91.0.864.59"}
page_text = requests.get(url=url, headers=headers).text

ex = '<a href="/book/sanguoyanyi/1.html">(.*?)</a>'
text_data = re.findall(ex, page_text, re.S)
print(text_data)

这个是乱码情况:['第ä¸\x80å\x9b\x9e·宴æ¡\x83å\x9b\xad豪æ\x9d°ä¸\x89ç»\x93ä¹\x89 æ\x96©é»\x84å·¾è\x8b±é\x9b\x84é¦\x96ç«\x8bå\x8a\x9f']

  • 写回答

3条回答 默认 最新

      报告相同问题?

      相关推荐 更多相似问题

      悬赏问题

      • ¥15 如何增加获取淘宝的数据订单
      • ¥15 fluent计算后处理中如何把质量分数和摩尔分数转化为体积分数
      • ¥20 asn1c编码问题,懂asn1的人很简单
      • ¥60 在排球比赛中,排球落于界限上时,人工判断存在一定的主观因素。利用图像处理的方法来计算排球落点相对界限中心位置,判断结果。
      • ¥15 使用vs2019开发的动态链路库在win7环境下使用有问题
      • ¥30 quartus prime画电路图,要发源文件和电路图每个模块批注,源程序和仿真结果
      • ¥15 MFC滚动条如何正确使用
      • ¥15 缓冲区算法求面积,基于文献
      • ¥50 电路PCB原理图设计AD19
      • ¥15 openstack 云平台搭建 创建实例错误