Python 爬虫乱码

网站名称不能写出来，要不然会因为被认为侵权而发布不了问题
写了一个最基础的爬虫去访问某网站（加了请求头），状态码200，爬出来的网页源代码是一段乱码
代码（原文件已经删了）：

import requests
url='https://www.douban.com'
headers={中间是什么忘了，总之包含了User-agent和Referer}
r=requests.get(url,headers=headers)
r.text.encode('utf=8')
print(r.statu_code)
print(r.text)

成功访问，r.text是一大段的乱码？
爬取某网站的原文件已经给我删了，以同样的方法访问另一个网站首页是一部分乱码,用浏览器看了一下网页源代码，发现乱码部分好像大多在引号内
把r.text写进html文件里（utf-8转gbk）：

还有这个(utf-8)：

加encode('gbk'）无法转换
还有我把这个程序改动了去爬某个视频网站首页，

https://www.bilibili.com

用了网上介绍的几种反反爬，出来的只有一小块，是源代码真就这么点，还是它设置了其他反爬？
(网页名称只能这么写了，不然不让提交）

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
starlight_2007 2023-01-25 18:29
关注
有点怪，源代码在我的环境里运行后，没有乱码。

想了想，有可能是如下原因导致乱码：
（1）在用户未知的情况下，环境自动按某种格式编译了内容，然后在反复、不对应的编译格式转换下出现乱码。
（2）指定的编码格式不正确。
可能可行的解决方案：
（1）避免指定错误的编译格式。
（2）使用其他的模块以避免编译错误。（如bs4等）
我用的应该是virturevenv下的IDLE。
请问您的环境是？

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

3种Python爬虫中文乱码的处理方法
2024-08-08 17:59

编程阿布的博客 Python爬虫在抓取网页数据时，经常会遇到中文乱码问题。这通常是因为网页的编码格式与Python处理时使用的编码格式不一致导致的。以下是三种常见的处理中文乱码的方法，并附上相应的代码示例。
Python爬虫入门教程[源码]
2025-11-12 16:08

首先，教程开篇介绍了进行网络爬虫开发所必需的基础知识，如Python编程语言的环境搭建以及相关库的安装。在此基础上，本教程以彼岸图网为例，针对如何进行网络图片的爬取进行了详细阐释。彼岸图网作为教学案例，因其...
Python爬虫中文乱码处理实例代码解析
2023-12-23 20:00

Sitin涛哥的博客在本文中，深入探讨了Python爬虫中处理中文乱码的各种方法，旨在帮助大家解决在网络数据抓取过程中常见的编码问题。这些问题可能导致数据解析不正确，影响到数据质量和可靠性。从明确指定编码、使用第三方库（如...
Python 爬虫中文乱码一文通
2022-07-27 01:14

H-大叔的博客还在找python中文乱码的解决方法？来跟我学习，一文直接PASS。
盘点3种Python爬虫中文乱码的处理方法
2023-11-22 10:24

认真写程序的强哥的博客本文针对Python网络爬虫过程中的中文乱码问题，给出了3种乱码解决方法，顺利解决了问题。你还知道有哪些乱码的情况和处理方法，欢迎在评论区中留言。感兴趣的小伙伴，赠送全套Python学习资料，包含面试题、简历资料...
python编程实现爬虫项目从网站获取图片
2025-07-17 09:39

Python编程实现的网络爬虫项目在从网站获取图片方面具有极高的实用价值和广泛的应用前景。通过系统学习和实践，我们可以掌握这项技术，并将其应用于数据采集、图片资源整理、网络分析等多方面，为我们的工作和学习...
Python爬虫入门
2025-05-14 21:30

咕噜咕噜啦啦的博客爬虫（Web Crawler），也称为网络爬虫或蜘蛛程序，是一种自动。它通过模拟人类浏览网页的行为访问网站的页面，提取页面中的信息，并将其存储到本地或数据库中。爬虫广泛应用于搜索引擎、数据分析、内容推荐等领域
python爬虫乱码解决方案
2020-09-16 15:52

万变ip的博客下面给大家分享一下爬虫乱码的解决方法。网络爬虫有两种选择，一种是nutch、 hetriex，另一种是自编的爬虫。当处理乱码时，原理是一样的，但是当处理乱码时，前者只能在理解源代码后修改它，所以有必要浪费一些精力...
盘点3种Python网络爬虫过程中的中文乱码的处理方法
2024-03-06 11:25

傻啦嘿哟的博客在处理Python网络爬虫中的中文乱码问题时，我们可以通过指定编码方式、使用第三方库或使用正则表达式等方法来解决。具体选择哪种方法，需要根据实际情况和乱码问题的具体情况来决定。对于新手朋友来说，了解并掌握...
python爬虫时遇到乱码，以及动态显示的数据无法爬取
2024-07-05 11:41

序列02的博客在爬取的时候有很多种乱码，我遇到的是类似ÉÌÆ·ÁÐ±í-Ó¢ÐÛÁªÃËµÀ¾Û³Ç这种的，在查找资料后是以读取gbk导致的，最后解决办法是发送get请求后通过这个代码就可以显示出来，乱码有很多种，其他更...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 1月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月25日

Python 爬虫乱码

3条回答 默认 最新

问题事件

3条回答默认最新