pychon中爬取网页信息，输出时乱码问题，求解决

今天练习一下pychon的爬取，就写了一个爬取三国演义的爬虫，结果在输出中文时出现乱码。

import requests
from bs4 import  BeautifulSoup
url='https://www.shicimingju.com/book/sanguoyanyi.html'
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'
}
page_text=requests.get(url=url,headers=headers).text
soup=BeautifulSoup(page_text,'lxml')
li_list=soup.select('.book-mulu>ul>li')
fp=open('./三国演义.txt','w',encoding='utf-8')
for li in li_list:
    title=li.a.string
    detail_url='https://www.shicimingju.com/'+li.a['href']
    detail_url_text=requests.get(url=detail_url,headers=headers).text
    detail_soup=BeautifulSoup(detail_url_text,'lxml')
    div_tag=detail_soup.find('div',class_='chapter_content')
    content = div_tag.text
    fp.write(title+':'+content+'\n')
    print(title,'爬取完毕!!!')
print('全部爬取完毕')

爬出来的全是中文乱码：

已经加入了encoding='utf-8'后依然如此，上网找百度也寻觅无果，求指点

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

CSDN专家-天际的海浪 2022-01-08 21:42

关注

你requests 读取页面文件的编码不对 ,用 res.encoding='utf-8'或res.encoding='gbk'设置下读取页面文件用的编码, 再获取res.text即可，比如

res=requests.get('http://www.xxxx.com')
res.encoding='utf-8'
#或res.encoding='gbk'
print(res.text)

或者也可以设置 res.encoding=res.apparent_encoding 自动从网页的内容中分析网页编码

你题目的解答代码如下：

import requests
from bs4 import  BeautifulSoup
url='https://www.shicimingju.com/book/sanguoyanyi.html'
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'
}

res=requests.get(url=url,headers=headers)
res.encoding=res.apparent_encoding
page_text=res.text

soup=BeautifulSoup(page_text,'lxml')
li_list=soup.select('.book-mulu>ul>li')
fp=open('./三国演义.txt','w',encoding='utf-8')
for li in li_list:
    title=li.a.string
    detail_url='https://www.shicimingju.com/'+li.a['href']
    detail_url_text=requests.get(url=detail_url,headers=headers).text
    detail_soup=BeautifulSoup(detail_url_text,'lxml')
    div_tag=detail_soup.find('div',class_='chapter_content')
    content = div_tag.text
    fp.write(title+':'+content+'\n')
    print(title,'爬取完毕!!!')
print('全部爬取完毕')

如有帮助，请点击我的回答下方的【采纳该答案】按钮帮忙采纳下，谢谢!

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

报告相同问题？

关注问题

pychon中爬取网页信息，输出时乱码问题，求解决 python 开发语言有问必答爬虫
2022-01-08 21:33

回答 1 已采纳你requests 读取页面文件的编码不对 ,用 res.encoding='utf-8'或res.encoding='gbk'设置下读取页面文件用的编码, 再获取res.text即可，比如 res=
利用python自动爬取网页相关信息并输出到excel表格里 list python
2022-08-03 18:00

回答 5 已采纳设计流程读取Excel中的事件编号需要的知识：使用 Python 读取Excel中的数据输入事件编号到网页端需要的知识：1.使用 Python 发送网络请求。首先需要分析目标网页输入事件编号这
python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
python爬取网页有乱码怎么解决_Python抓取网页乱码的原因及解决方法
2020-11-24 11:02

weixin_39531834的博客本篇文章给大家带来的内容是关于Python抓取网页乱码的原因及解决方法，有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。在用 python2 抓取网页的时候，经常会遇到抓下来的内容显示出来是乱码。发生...
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 17:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
Jupyter Notebook 爬取网页内容时出来的结果是乱码要怎么解决 jupyter python
2022-02-23 15:27

回答 2 已采纳需要换一下编码
python爬虫爬取网页信息问题 python
2019-05-14 08:32

回答 1 已采纳将字符串中空格去掉。
python爬取网页有乱码怎么解决_Python抓取网页乱码的解决方法分析
2020-11-24 11:02

weixin_39890102的博客 Python抓取网页乱码的原因及解决方法本篇文章给大家带来的内容是关于Python抓取网页乱码的原因及解决方法，有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。在用 python2 抓取网页的时候，经常会...
selenium爬虫爬取网页信息时出现用户登陆怎么解决？ python 有问必答
2022-08-25 16:21

回答 5 已采纳 emmm，你可以先打开浏览器进行登录，再让selenium接管浏览器：https://blog.csdn.net/qq254271304/article/details/103493969或者你再程序
python爬虫爬取网页为什么获得的不是正常网页数据 python 爬虫
2022-05-12 14:48

回答 2 已采纳这代码里面好多错误，你是怎么运行成功的？
Python利用requests爬取网页遇到的payload问题 python 有问必答爬虫
2021-08-13 14:31

回答 5 已采纳网站多少
python爬取网页有乱码怎么解决_Python 抓取网页乱码原因分析
2020-11-21 01:03

weixin_39766071的博客在用 python2 抓取网页的时候，经常会遇到抓下来的内容显示出来是乱码。发生这种情况的最大可能性就是编码问题：运行环境的字符编码和网页的字符编码不一致。比如，在 windows 的控制台（gbk）里抓取了一个 utf-8 ...
Python用beautifulsoup爬取网页数据 python
2022-04-29 00:54

回答 1 已采纳是不是最后一页的数据？导出覆盖了吧
python爬取网页有乱码怎么解决_python中requests爬去网页内容出现乱码问题解决方法介绍...
2020-11-21 01:03

weixin_39778582的博客最近在学习python爬虫，使用requests的时候遇到了不少的问题，比如说在requests中如何使用cookies进行登录验证，这可以查看这篇文章。这篇博客要解决的问题是如何避免在使用requests的时候出现乱码。import requests...
python爬取文字编程_python如何爬取网页中的文字
2021-01-12 06:18

weixin_39619433的博客用Python进行爬取网页文字的代码：12345678910111213#!/usr/bin/python# -*- coding: UTF-8 -*-import requestsimport re# 下载一个网页# 模拟浏览器发送http请求response= requests.get(url)# 编码方式response....
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月8日

悬赏问题

¥15 对于squad数据集的基于bert模型的微调
¥15 为什么我运行这个网络会出现以下报错？CRNN神经网络
¥20 steam下载游戏占用内存
¥15 CST保存项目时失败
¥15 树莓派5怎么用camera module 3啊
¥20 java在应用程序里获取不到扬声器设备
¥15 echarts动画效果的问题，请帮我添加一个动画。不要机器人回答。
¥15 Attention is all you need 的代码运行
¥15 一个服务器已经有一个系统了如果用usb再装一个系统，原来的系统会被覆盖掉吗
¥15 使用esm_msa1_t12_100M_UR50S蛋白质语言模型进行零样本预测时，终端显示出了sequence handled的进度条，但是并不出结果就自动终止回到命令提示行了是怎么回事：

pychon中爬取网页信息，输出时乱码问题，求解决

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新