m0_52277682 2021-07-02 22:54 采纳率: 50%
浏览 92
已采纳

想请教一下python爬虫中文乱码问题

小白最近在学爬虫,请问各位大哥们我想爬取的这句话“第一回·宴桃园豪杰三结义 斩黄巾英雄首立功”为啥是乱码呢
我用利用正则解析下面这个
第一回·宴桃园豪杰三结义 斩黄巾英雄首立功
代码如下,问题可能有些弱智,但恳请各位不吝赐教

import requests
import re

url = 'https://www.shicimingju.com/book/sanguoyanyi.html'
headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36 Edg/91.0.864.59"}
page_text = requests.get(url=url, headers=headers).text

ex = '<a href="/book/sanguoyanyi/1.html">(.*?)</a>'
text_data = re.findall(ex, page_text, re.S)
print(text_data)

这个是乱码情况:['第ä¸\x80å\x9b\x9e·宴æ¡\x83å\x9b\xad豪æ\x9d°ä¸\x89ç»\x93ä¹\x89 æ\x96©é»\x84å·¾è\x8b±é\x9b\x84é¦\x96ç«\x8bå\x8a\x9f']

  • 写回答

3条回答 默认 最新

  • 冰履踏青云 2021-07-02 23:09
    关注

    教你一招,请求数据之前先右键查看网页源代码,看看最上面的charset是啥,一般都是utf-8或者gbk的,要按它给的写程序,你这个网页是utf8编码,所以可以这样写,参考:

    import requests
    import re
    url = 'https://www.shicimingju.com/book/sanguoyanyi.html'
    headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36 Edg/91.0.864.59"}
    res = requests.get(url=url, headers=headers)
    res.encoding='utf-8'
    page_text = res.text
    ex = '<a href="/book/sanguoyanyi/1.html">(.*?)</a>'
    text_data = re.findall(ex, page_text, re.S)
    print(text_data)
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

悬赏问题

  • ¥50 易语言把MYSQL数据库中的数据添加至组合框
  • ¥20 求数据集和代码#有偿答复
  • ¥15 关于下拉菜单选项关联的问题
  • ¥20 java-OJ-健康体检
  • ¥15 rs485的上拉下拉,不会对a-b<-200mv有影响吗,就是接受时,对判断逻辑0有影响吗
  • ¥15 使用phpstudy在云服务器上搭建个人网站
  • ¥15 应该如何判断含间隙的曲柄摇杆机构,轴与轴承是否发生了碰撞?
  • ¥15 vue3+express部署到nginx
  • ¥20 搭建pt1000三线制高精度测温电路
  • ¥15 使用Jdk8自带的算法,和Jdk11自带的加密结果会一样吗,不一样的话有什么解决方案,Jdk不能升级的情况