python抓取gb2312编码的网页日文乱码

      爬取一个网页的内容，该网页是gb2312的编码格式，浏览网页程序，其中的日文显示姑且算是正常的。
      シン&#12539;エヴァンゲリオン劇場版:│▌这是网页程序显示的
    （シン&#12539;エヴァンゲリオン乱码霭乱码:│乱码）这是我抓取的，抓取格式也是gb2312，保存为CSV文件格式是UTF-8，别的格式会报错（'gb2312' codec can't encode character '\uFFFd' in position 18: illegal multibyte sequence），只能用这个格式。setting设置的格式也是gb2312，所以我保存下来的样子是这样的。
    我都猜想是这样的，网页整体格式是gb2312，这几个日文会不会是别的编码格式。一整个页面都是统一格式，几个日文单独使用其他格式，是怎么实现的？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-天际的海浪 2021-09-25 23:50
关注
这几个日文是在网页源代码中的吗??有日文是不应该用gb2312编码的。
还是说日文是用ajax加载的外部数据。这个外部数据不是gb2312编码。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python爬虫实战：解决网页编码问题与高效数据抓取
2025-07-18 15:52

Python爬虫项目的博客字符编码是将字符集中的字符映射到二进制...内置编码处理chardet库：Google开发的编码检测库cchardet库：chardet的C语言加速版本requests库的编码处理：自动处理响应编码BeautifulSoup的编码处理：自动检测文档编码。
python 解决抓取网页中的中文显示乱码问题
2017-06-19 13:52

weixin_30287169的博客关于爬虫乱码有很多各式各样的...如源网页为gbk编码的字节流，而我们抓取下后程序直接使用utf-8进行编码并输出到存储文件中，这必然会引起乱码即当源网页编码和抓取下来后程序直接使用处理编码一致时，则不会出现...
python访问多个网页_Python 爬虫 2 爬取多页网页
2020-12-10 03:07

weixin_39797758的博客本文内容：Requests.get爬取多个页码的网页例：爬取极客学院课程列表爬虫步骤打开目标网页，先查看网页源代码get网页源码找到想要的内容，找到规律，用正则表达式匹配，存储结果Requests 收录了 python 的第三方http...
Python网络爬虫出现乱码的原因
2016-10-16 17:07

皓阳当空的博客关于爬虫乱码有很多各式各样的问题，这里不仅是中文乱码，编码...如源网页为gbk编码的字节流，而我们抓取下后程序直接使用utf-8进行编码并输出到存储文件中，这必然会引起乱码即当源网页编码和抓取下来后程序直接使
Python基础教程（七十五）常见第三方模块之chardet：Python第三方模块之chardet，编码神探，一网打尽乱码难题
2025-08-13 10:03

值引力的博客 Python利器chardet，凭借统计分析与机器学习，化身编码神探，自动识别未知文本编码（如UTF-8、GBK、ISO-8859）。其核心基于字符分布频率与语言模型权重，计算置信度。本文深度解析其工作原理与局限，实战演示文件、...
爬取网页中文乱码的问题
2018-10-17 15:53

安吉尼尔的博客基本知识计算机只能处理数字，所以将一个数字对应一个符号,所以不同的数字对应不同符号的方式有不同为不同编码方式。 ASCII码：英文字符和二进制数字之间...gb2312 : 中文字符和二进制数字之间的对应关系。...
python爬虫文字全是乱码_Python爬虫乱码的解决方案！
2020-12-08 13:37

weixin_39779467的博客互联网时代里，学习爬虫程序的人越来越多，学习中难免会遇到一些问题，比如爬虫时出现了乱码，不知道如何解决，下面给大家分享一下爬虫乱码的解决方法。网络爬虫有两种选择，一种是nutch、 hetriex，另一种是自编的...
HTML字符编码处理：Miniconda-Python3.9解决UnicodeDecodeError
2025-12-30 15:48

BIG-HO的博客通过Miniconda与Python 3.9...利用环境隔离、UTF-8默认编码优势及chardet编码检测，实现对中文、日文等多语言HTML的安全解析。结合动态检测与回退策略，显著降低生产环境解码失败率，提升项目可维护性与团队协作效率。
python中文字符串编码_浅谈python下含中文字符串正则表达式的编码问题
2020-11-30 00:15

weixin_39645041的博客前言Python文件默认的编码格式是ascii ，无法识别汉字，因为ascii码中...这是指定一种编码格式，意味着用该编码存储中文字符(也可以是gbk、gb2312等)。关于测试的几点注意 ---------------------------------------...
python爬虫乱码解决方案
2020-09-16 15:52

万变ip的博客现在学习爬虫程序的人越来越多，学习中难免会遇到问题，比如爬虫时出现了乱码。下面给大家分享一下爬虫乱码的解决方法。网络爬虫有两种选择，一种是nutch、 hetriex，另一种是自编的爬虫。当处理乱码时，原理是一样...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月25日

python抓取gb2312编码的网页日文乱码

3条回答 默认 最新

问题事件

3条回答默认最新