叨叨的猫 2021-03-04 14:14 采纳率: 100%
浏览 58
已采纳

pythom 中文显示乱码?

#需求:获取三国演义小说所有的章节标题和章节内容
#地址:https://www.shicimingju.com/book/sanguoyanyi.html


import lxml
import requests
from bs4 import BeautifulSoup

if __name__ == "__main__":
    url = 'https://www.shicimingju.com/book/sanguoyanyi.html'
    headers = {
        'User-Agent': 'Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 88.0.4324.182 Safari / 537.36 Edg /88.0.705.81'
    }
    page_text = requests.get(url,headers=headers).text
    print(page_text)

到这里爬取到的网页中文显示是乱码
原网页编码显示为‘UTF-8’,
尝试用page_text.encoding = "utf-8",但是就直接报错

   用 print(type(page_text)),查看显示数据类型为str 。

展开全部

  • 写回答

1条回答 默认 最新

  • 多鱼的夏天 2021-03-04 15:09
    关注
    page_text是返回的text,没有encoding属性

    两种方法解决编码问题

    方法一

    url='https://www.shicimingju.com/book/sanguoyanyi.html'
    r = requests.get(url)
    html=r.content
    html_doc=str(html,'utf-8') 

    方法二

    url='https://www.shicimingju.com/book/sanguoyanyi.html'
    r=requests.get(url)
    r.encoding='utf-8'
    print(r.text)
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
编辑
预览

报告相同问题?

悬赏问题

  • ¥100 IED中交流采样通道、以及程序流程的设计
  • ¥15 我如果只想表示节点的结构信息,使用GCN方法不进行训练可以吗
  • ¥15 GPTs营销指令提示词和创建方案
  • ¥15 QT6将音频采样数据转PCM
  • ¥15 本地安装org.Hs.eg.dby一直这样的图片报错如何解决?
  • ¥15 下面三个文件分别是OFDM波形的数据,我的思路公式和我写的成像算法代码,有没有人能帮我改一改,如何解决?
  • ¥15 Ubuntu打开gazebo模型调不出来,如何解决?
  • ¥100 有chang请一位会arm和dsp的朋友解读一个工程
  • ¥50 求代做一个阿里云百炼的小实验
  • ¥15 查询优化:A表100000行,B表2000 行,内存页大小只有20页,运行时3页,设计两个表等值连接的最简单的算法