python爬虫中文乱码，用了utf-8解码，仍然是乱码, 如何处理？

import requests
import json
from requests.packages.urllib3.exceptions import InsecureRequestWarning
requests.packages.urllib3.disable_warnings(InsecureRequestWarning)
from bs4 import BeautifulSoup
import sys

def getHTMLText(url):
    try:
        headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36'}
        h=requests.get(url,headers = headers, verify = False)
        h.raise_for_status()
        h.encoding="gbk"
        return h.text
    except:
        return ""

url = 'http://www.shicimingju.com/book/hongloumeng/1.html'
soup = BeautifulSoup(getHTMLText(url),"html.parser")
with open('第一章.txt','w',encoding = 'UTF-8',errors = 'ignore') as f:
    f.write(str(soup))

运行结果（部分）是

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
双玉山人 2020-06-02 14:43
关注
h.encoding="gbk"应该是decoding吧。这个和下面的open('第一章.txt','w',encoding = 'UTF-8',errors = 'ignore')，不一致吧，
建议参考下，https://blog.csdn.net/FCinPJP/article/details/82872015

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬取数据到文本文件：为什么里面写了utf-8还是乱码 python
2021-07-24 11:40

回答 3 已采纳你在你画圆圈的的上一行写一句r.encoding="utf-8"试一试，有用的话点一下采纳
python如何将hex转为utf-8 python 有问必答
2021-06-19 15:33

回答 2 已采纳 n1=65 print(chr(n1)) n1=97 print(chr(n1)) s="\xe0" s.encode('raw_unicode_escape') print(s)
怎么解决python使用utf-8和gbk仍然乱码的问题？ python
2021-07-27 18:11

回答 3 已采纳在获取页面源码后，进行转码。 res = requests.get(url,headers=headers) new_res = res.text.encode('iso-8859-1').decod
python utf 8还是乱码_Python爬虫:decode('utf-8')之后还是乱码的解决
2021-03-05 13:34

小欣酱不小心的博客今天学习爬虫ing，结果不出所料的遇到了乱码，捣鼓了半天，翻了网上数种方法，终于在快裂开的时候，忽然眼前一亮，发现了一个新方法，于是乎竟然解决了。————————————————————分割线————...
python默认编码格式已经是utf-8了，为什么open读取文件时还会出现乱码问题 python 有问必答
2021-08-17 16:12

回答 2 已采纳你输出下myfile这个对象，看看实际打开时使用的编码是什么。肯定不是utf-8
Python以'rb'的形式打开文件，无法encoding = 'UTF-8' python 有问必答
2021-09-18 15:46

回答 2 已采纳读取文件写'r'就可以,'rb'是以二进制形式读入将其改为encoding='bytes'即可(资料来源见评论)有帮助望采纳
爬虫中utf-8有什么作用？感觉有没有都一样啊 python 有问必答
2021-06-21 19:19

回答 3 已采纳对于是中文的网页，指定编码方式为utf-8，防止出现乱码。对于英文的网站不需要指定。
python爬虫脚本ie=utf-8_Python爬取网页编码问题
2020-12-01 23:20

weixin_39714565的博客最近开始复习Python爬虫，使用了VS Code作为编辑器，配置了Task输出的时候，发现VS Code的Output对于中文是乱码，而上网查到的资料是Output默认输出UTF-8格式，而且程序在Windows控制台运行中文正常输出。...
python txt转码，utf-8转gkp怎么转？ list python
2022-06-16 01:39

回答 1 已采纳读txt文件出错，代表txt文件编码形式就不是utf-8编码，可以在读取txt文件时，采用gbk等编码方式读取。（想要知道你的txt文件是什么编码形式，可以在电脑上采用文本打开，选择另存为，你会在右下
爬取网页使用utf-8还是得到乱码 python 有问必答爬虫
2021-08-03 21:10

回答 4 已采纳 utf-8换成gbk. 你看它的网页用的是什么编码，你就用什么编码。浏览器F12查看源代码，看到html头部有。。。里面写的很清楚是gbk。 <meta http-equiv="content-
Python 爬虫乱码 python 开发语言
2023-01-25 13:07

回答 3 已采纳有点怪，源代码在我的环境里运行后，没有乱码。想了想，有可能是如下原因导致乱码：（1）在用户未知的情况下，环境自动按某种格式编译了内容，然后在反复、不对应的编译格式转换下出现乱码。（2）指定的编码格
python 连接mysql乱码_解决python连接mysql，UTF-8乱码问题
2021-03-17 12:20

Mustangmelo的博客在测试“Bluemix云端数据库服务ClearDB MySQL使用示例———Python开发投票程序”的程序时，从MySQL中读取的中文输出到网页显示都是问号，如下图：解决方法：产生乱码问题，通常都是由于几方面的编码不统一导致的，...
使用python外部插件pycha时，出现中文乱码，有没有解决方案？ python
2017-12-15 04:09

回答 2 已采纳你可以换用 Matplotlib。
盘点3种Python爬虫中文乱码的处理方法
2023-11-22 10:24

认真写程序的强哥的博客本文针对Python网络爬虫过程中的中文乱码问题，给出了3种乱码解决方法，顺利解决了问题。你还知道有哪些乱码的情况和处理方法，欢迎在评论区中留言。感兴趣的小伙伴，赠送全套Python学习资料，包含面试题、简历资料...
utf-8 python 错误_Python爬取网页Utf-8解码错误及gzip压缩问题的解决办法
2020-12-10 08:13

weixin_39531635的博客在我们用python3爬取一些网站时，获取网页url后进行解析，在采用decode('utf-8')解码时有时候会出现utf-8无法解码的问题，比如结果会提示：Unicode Decode Error: 'utf8' codec can't decode byte 0xb2 in position ...
没有解决我的问题, 去提问

悬赏问题

¥20 idea运行测试代码报错问题
¥15 网络监控：网络故障告警通知
¥15 django项目运行报编码错误
¥15 请问这个是什么意思？
¥15 STM32驱动继电器
¥15 Windows server update services
¥15 关于#c语言#的问题：我现在在做一个墨水屏设计，2.9英寸的小屏怎么换4.2英寸大屏
¥15 模糊pid与pid仿真结果几乎一样
¥15 java的GUI的运用
¥15 我想付费需要AKM公司DSP开发资料及相关开发。

python爬虫中文乱码，用了utf-8解码，仍然是乱码, 如何处理？

1条回答 默认 最新

悬赏问题

1条回答默认最新