这是为什么呢？保存网页乱码

目的是想保存一个html文档（中英文都含有的诗词名句网页https://www.shicimingju.com/chaxun/zuozhe/1.html），由于总是出现乱码格式就在发送请求的时候加了一句.encode('iso-8859-1')，保存用的是常规方法write()，结果总运行出错，但是我在爬取同样是含有中英文的淘宝网页https://www.taobao.com/就没有问题，当我去套用爬取淘宝网页的代码时，中文保存还是存在问题
这是淘宝网页正常爬取的代码和结果

import requests
url="https://www.taobao.com/"
response=requests.get(url=url)
page_txt=response.text
#print(page_txt)
with open('taobao','w',encoding='utf-8') as fp:
    fp.write(page_txt)
print('爬取结束')

这是最开始的代码

import requests
from bs4 import BeautifulSoup
# 对首页页面进行抓取
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36'
}
url='https://www.shicimingju.com/chaxun/zuozhe/1.html'
page_text=requests.get(url=url,headers=headers).text.encode('iso-8859-1')
soup=BeautifulSoup(page_text,'lxml')
print(soup)
'''
with open('./shici.html','w',encoding='utf-8') as fp:
    fp.write(page_text)
    print('抓取完成！')
'''

到print(soup)没啥问题，输出结果还是正确的格式，但是保存就出错

这是套用淘宝的代码

import requests
url="https://www.shicimingju.com/chaxun/zuozhe/1.html"
response=requests.get(url=url)
page_txt=response.text
#print(page_txt)
with open('./sc.html','w',encoding='utf-8') as fp:
    fp.write(page_txt)
print('爬取结束')

虽然运行成功了，但是保存的文件里的中文是乱码

应该还是编码格式的问题，但是我不知道怎么解决，还请各位帮忙解答！

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-showbo 2022-01-06 22:02
关注
改下面就可以了

page_text=requests.get(url=url,headers=headers).content.decode('utf-8')

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python抓取并保存html页面时乱码问题的解决方法
2020-09-21 14:50

这通常发生在读取、解析或保存网页内容时，由于编码不匹配导致字符无法正确显示。本篇文章将深入探讨Python抓取并保存HTML页面时乱码问题的解决方法。首先，我们需要理解编码的基础知识。计算机内部存储和处理文本...
python将网页保存为pdf,python-网页保存为pdf
2021-04-27 04:54

酸甜草莓二侠的博客今天用到是python的一个第三方库: pdfkitpdfkit 是一个十分强大的第三方库，只需要把网页的url(需要登录或其他特殊方式才能访问的除外)传入，仅靠它自己就能将网页保存为pdf。当然，pdfkit 库也支持文件和源码的传入...
Python3使用requests包抓取并保存网页源码的方法
2020-09-21 17:21

本篇将详细介绍如何使用requests包抓取并保存网页源码。首先，确保已经安装了requests库。如果没有，可以通过Python的包管理器pip进行安装，命令如下： ```bash pip install requests ``` 一旦安装完成，我们就...
python解决js文件utf-8编码乱码问题(推荐)
2020-09-20 13:08

特别是当JavaScript文件在保存时使用了UTF-8编码，但在实际使用过程中被误读或在HTML文件中引入时出现乱码，解决此问题显得尤为重要。本文将详细探讨如何使用Python语言来解决JS文件的UTF-8编码乱码问题，同时介绍...
python 保存本地乱码_python抓取并保存html页面时乱码问题的解决方法
2020-12-24 18:42

weixin_39527078的博客分享给大家供大家参考，具体如下：在用Python抓取html页面并保存的时候，经常出现抓取下来的网页内容是乱码的问题。出现该问题的原因一方面是自己的代码中编码设置有问题，另一方面是在编码设置正确的情况下，网页的...
python爬取网页有乱码怎么解决_Python抓取网页乱码的原因及解决方法
2020-11-24 11:02

weixin_39531834的博客本篇文章给大家带来的内容是关于Python抓取网页乱码的原因及解决方法，有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。在用 python2 抓取网页的时候，经常会遇到抓下来的内容显示出来是乱码。发生...
Python爬虫基于lxml解决数据编码乱码问题
2020-12-17 07:25

# 假设网页编码为ISO-8859-1 name = html.xpath("/html/body/div[2]/ul/li[1]/a/p/text()")[0].encode('ISO-8859-1').decode('UTF-8') ``` 这里，`encode('ISO-8859-1')` 将XPath选取的文本以ISO-8859-1编码转换为...
解决python使用open打开文件中文乱码的问题
2020-09-20 22:49

### 解决Python使用open打开文件中文乱码的问题在Python编程过程中，经常需要处理文本文件，尤其是包含中文字符的文件。然而，在某些情况下，当我们尝试使用`open()`函数读取这些文件时，可能会遇到中文乱码的问题...
python爬取数据保存到csv文件显示乱码
2023-06-17 16:16

你不是猫的博客 python保存数据到csv显示乱码
Python保存json文件，英文内容出现乱码
2022-10-17 22:34

習澤宇的博客解决python保存json文件是出现乱码的问题（带有特殊符号英文名字出现乱码）
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月6日

这是为什么呢？保存网页乱码

4条回答 默认 最新

问题事件

4条回答默认最新