scrapy爬取知乎首页乱码

爬取知乎首页，返回的response.text是乱码，尝试解码response.body，得到的还是乱码，不知道为什么，代码如下：

import scrapy


HEADERS = {
    'Host': 'www.zhihu.com',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    'Accept-Encoding': 'gzip, deflate, br',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Cache-Control': 'no-cache',
    'Connection': 'keep-alive',
    'Origin': 'https://www.zhihu.com',
    'Referer': 'https://www.zhihu.com/',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'
}


class ZhihuSpider(scrapy.Spider):

    name = 'zhihu'
    allowed_domains = ['www.zhihu.com']
    start_urls = ['https://www.zhihu.com/']

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url, headers=HEADERS)

    def parse(self, response):
        print('========== parse ==========')
        print(response.text[:100])

        body = response.body
        encodings = ['utf-8', 'gbk', 'gb2312', 'iso-8859-1', 'latin1']
        for encoding in encodings:
            try:
                print('========== decode ' + encoding)
                print(body.decode(encoding)[:100])
                print('========== decode end\n')
            except Exception as e:
                print('########## decode {0}, error: {1}\n'.format(encoding, e))
                pass

输出的log如下:
D:\workspace_python\ZhihuSpider>scrapy crawl zhihu
2017-12-01 11:12:03 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: ZhihuSpider)
2017-12-01 11:12:03 [scrapy.utils.log] INFO: Overridden settings: {'BOT_NAME': 'ZhihuSpider', 'FEED_EXPORT_ENCODING': 'utf-8', 'NEWSPIDER_MODULE': 'ZhihuSpider.spiders', 'SPIDER_MODULES': ['ZhihuSpider.spiders']}
2017-12-01 11:12:03 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
'scrapy.extensions.telnet.TelnetConsole',
'scrapy.extensions.logstats.LogStats']
2017-12-01 11:12:04 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']
2017-12-01 11:12:04 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']
2017-12-01 11:12:04 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2017-12-01 11:12:04 [scrapy.core.engine] INFO: Spider opened
2017-12-01 11:12:04 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2017-12-01 11:12:04 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2017-12-01 11:12:04 [scrapy.core.engine] DEBUG: Crawled (200) (referer: https://www.zhihu.com/)
========== parse ==========
��~!��#5��=B��_��^��ˆ� ═4�� 1��J�╗%Xi��/{�vH�"��
z�I�zLgü^�1�
Q)Ա�_k}�䄍��/T��U�3��l��
========== decode utf-8
########## decode utf-8, error: 'utf-8' codec can't decode byte 0xe1 in position 0: invalid continuation byte

========== decode gbk
########## decode gbk, error: 'gbk' codec can't decode byte 0xa2 in position 4: illegal multibyte sequence

========== decode gb2312
########## decode gb2312, error: 'gb2312' codec can't decode byte 0xa2 in position 4: illegal multibyte sequence

========== decode iso-8859-1
áø~!¢

同样的代码，如果将爬取的网站换成douban，就一点问题都没有，百度找遍了都没找到办法，只能来这里提问了，请各位大神帮帮忙，如果爬虫搞不定，我仿的知乎后台就没数据展示了，真的很着急,。剩下不到5C币，没法悬赏，但真的需要大神的帮助。

展开全部

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
脱裤儿任风吹 2017-11-30 21:34
关注
HEADERS = { 'Host': 'www.zhihu.com', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8', 'Accept-Encoding': 'gzip, deflate, br', 'Accept-Language': 'zh-CN,zh;q=0.9', 'Cache-Control': 'no-cache', 'Connection': 'keep-alive', 'Origin': 'https://www.zhihu.com', 'Referer': 'https://www.zhihu.com/', 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36' }

这个出的问题,保留到如下即可正常

HEADERS = { 'Host': 'www.zhihu.com', 'Referer': 'https://www.zhihu.com/', 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36' }

另外知乎首页是需要登录的,可以参考我的博文 http://blog.csdn.net/lifeifei1245/article/details/73076437
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 5
无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容
吃鱼爱挑刺 2022-06-14 11:08

大哥好评我把浏览器的请求头都复制过去反而全都乱码

赞

回复

编辑

预览

轻敲空格完成输入
显示为

卡片

标题

链接

回复

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

编辑

预览

报告相同问题？

关注问题

如何利用scrapy爬取带标签的网页内容并保存到自己的服务器上？ mysql python sql
2018-02-09 01:34

回答 3 已采纳 1. 把整个爬取到的网页内容直接存储到数据库肯定是可以的，你之所以没有成功，应该是因为你的数据库中的相应字段错了，整个网页内容都比较长，一般都是要用text字段，甚至是LongText)（最大长度42
scrapy爬取图片，爬取不到 python 有问必答
2021-05-23 12:32

回答 2 已采纳你已经爬到图片连接了，这个看到的管道文件的代码怎样写，要对图片链接发送请求访问，然后保存才行
scrapy 爬取图片报错 error processing python
2021-12-19 17:08

回答 1 已采纳 http: 去那里啦?
scrapy爬取知乎某个问题下的所有图片
2019-02-13 07:00

weixin_30872337的博客　网上能访问到的理论上都能爬取下来，只是网站反爬虫手段和爬取复杂的问题。知乎的内容大概是问题+回答（我才开始用，暂时的概念）。大概流程是：；<1>登录-->进入首页-->点击首页列表中...
用scrapy爬取站长素材无法下载图片 python 爬虫
2021-08-03 10:51

回答 2 已采纳找到原因了，是要在setting中加上MEDIA_ALLOW_REDIRECTS = True，貌似是中间件的内容，我还没学到，所以不清楚什么意思，有大佬可以解释一下吗看所有日志后会发现其实有地方报错
scrapy 爬取商品视频url,详情失败 python
2022-02-17 02:28

回答 3 已采纳 js加载的，先打印看下获取的整个网页。我试了下，在下图这个位置可以找到视频链接，可以用正则或者别的方法取出来
scrapy爬取百度图片时Forbid spider access python 有问必答
2021-06-13 15:12

回答 2 已采纳这个是百度反爬虫导致的，
scrapy 爬取网页源代码是中文乱码
2023-03-29 07:00

qq_55033799的博客 g2312编码网页爬取出现中文乱码
scrapy 爬取图片时图片的url总是显示None python 有问必答
2021-12-03 17:41

回答 1 已采纳 img_url = div.xpath('./div/a/img/src').extract_first() src前面少了 @ 改成 img_url = div.xpath('./
scrapy-爬取京东笔记本电脑信息问题 chrome python selenium 开发语言
2020-09-01 11:12

回答 2 已采纳 ``` browser.quit() return HtmlResponse(url=request.url, body=browser.page_source, re
scrapy 爬虫大量链接返回None不知道为啥 python
2020-05-29 06:50

回答 2 已采纳 200说明成功了，返回None是因为你返回值本来就设置成None，或者没设置返回值导致python默认返回None
scrapy 简单爬取知乎
2017-08-20 13:29

Daisy_Yejia的博客 1.首先先模拟登录，主要目的是获取cookies方法1：常规利用request方法进行模拟登录，获取cookieJar，利用requests.utils.dict_from_cookiejar(cookiesjar)方法，将cookiehar转化为dict类型，并传入scrapy....
处理爬取知乎问题时的一些异常
2018-02-13 13:53

Fitz1318的博客附上知乎爬取的完整代码，虽然程序还不够健壮，但是比上一个版本的好。抓取question的成功率提高了不少。更新：找到解决这个问题的方法，直接采用异常处理即可。运行一会，发现数据表中已经插入了回答数为0的问题...
scrapy抓取的中文结果乱码解决办法
2018-11-06 13:20

迪迦 • 奥特曼的博客使用scrapy抓取的结果，中文默认是Unicode,无法显示中文。中文默认是Unicode,如: \u5317\u4eac\u5927\u5b66 在setting文件中设置： FEED_EXPORT_ENCODING = 'utf-8'
爬虫-爬取知乎热搜榜（图片下载）
2021-08-18 02:42

weixin_41940785的博客利用scrapy框架爬取知乎热搜榜网站前50条热搜。爬取信息：热搜新闻名、热搜新闻热搜量、热搜简介。数据存储：存储为.json文件。 2.爬取流程新建scrapy爬虫项目：在终端输入以下代码，创建一个基于scrapy框架的...
没有解决我的问题, 去提问

悬赏问题

¥15 okhttp分片上传文件，到最后一个分片提示：Invalid Content-Length
¥15 有关汽车的MC9S12XS128单片机实验
¥15 求c语言动态链表相关课程有偿，或能将这块知识点讲明白
¥15 FLKT界面刷新异常
¥15 物体双站RCS和其组成阵列后的双站RCS关系验证
¥50 单细胞测序拟时序分析
¥50 运行springboot项目报错
¥15 FTP 站点对站点传输失败
¥15 宝塔面板一键迁移使用不了
¥15 求一个按键录像存储到内存卡的ESP32CAM代码

scrapy爬取知乎首页乱码

2条回答 默认 最新

悬赏问题

2条回答默认最新