请教大家该怎么正确爬取gzip网站

在自学爬虫，想尝试一下爬取小说网站，第一次成功了但发现是乱码。在查完资料之后发现网页是经过gzip压缩的，试了好多方法。但都会有问题。所以想请教一下大家这种gzip网页该怎么处理呢？


    for i in range(0,5):
        #得到需要爬取的url
        title = dd_list[i].a.string
        detail_url = 'https://www.xbiquge.la/' + dd_list[i].a['href']
        #对详情页发起请求，这部分实在弄不明白：(
        req = requests.get(url=detail_url,headers=headers).content
        req_text = gzip.decompress(req).decode('utf-8')
        #解析出详情页中的内容
        data_list = re.findall(ex,req_text,re.S)

        fp.write(title+':\n')
        for DA in data_list:
            fp.write(DA+'\n')
        print(title,'！！！')

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Mint.Coder 2021-09-22 03:51
关注
header中有一个appcet 填上即可

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python 问财网搜索界面新闻爬取 python 爬虫
2021-12-25 00:39

回答 7 已采纳先用postman 测试headers里面那些内容不是必须的。分析那些cookie 是浏览器生成的，那些是服务器返回的。去分析js当中浏览器生成cookie的生成代码抠出来，然后用PyExecJS 这
python读取BLOB格式数据 mysql python
2020-10-10 17:12

回答 1 已采纳调试下看看gzip.decompress(content)是什么，是不是合法的utf-8字符串
python爬虫爬取网页为什么获得的不是正常网页数据 python 爬虫
2022-05-12 14:48

回答 2 已采纳这代码里面好多错误，你是怎么运行成功的？
python爬取头条付费专栏视频_用Python编写爬取头条视频的代码
2020-12-03 07:10

weixin_39810901的博客最近一直在头条上面看关于Python的视频，可头条视频没有下载选项。通过浏览器自带的开发者工具(Google按F12)可以查看到视频的地址，并进行下载。这是手动下载，每回查看感觉还是比较费事，就想用Python写个代码，...
python把爬取的网页信息写到json文件中 json python
2022-02-19 19:37

回答 1 已采纳你可以试试使用res = json.dumps(response.text)，将python数据类型str转化为json格式（虽然在python中也是字符串），但是会将\n显示出来，而不是在文件中变成
python 爬取网站分页不能得到真正页面，提示该问路径不合法，如何解决？ python
2021-03-23 20:01

回答 2 已采纳你的headers带了个寂寞，cookie也格式化了个寂寞= = headers里面的cookie需要字符串的，不需要格式化格式化后的cookie直接使用cookie的方式携带就好了
python爬取36kr时模拟Post请求返回的内容不是需要的内容 html5 json python
2020-07-27 09:23

回答 4 已采纳 HTTP Status 500所以肯定什么地方错了我用网页打开也是500，所以你再看看接口的必要元素是不是少了
python如何爬取网页视频_python,网页爬虫_爬虫爬取html5页面上的视频是怎样的一种处理方式的，python,网页爬虫 - phpStudy...
2020-11-25 06:07

weixin_39629989的博客爬虫爬取html5页面上的视频是怎样的一种处理方式的以这个为例：http://www.imooc.com/video/10903在f12时候可以看到这一串信息但在我处理页面的时候都没发现有这链接这页面需要登入之后才能看，我已经处理了登入程序...
python 爬取图片，部分图片无法下载，求解答 python 爬虫
2021-09-04 11:53

回答 9 已采纳你的目录名过长，而且多级目录，是不是有点自己找苦吃，你确保这个目录存在吗？建议你简化目录结构并确保目录存在，如再不成功再发问题。有帮助请采纳！
Python pip 安装软件包出错 python 开发语言
2022-07-25 12:40

回答 1 已采纳 gzip不是内置包么不需要安装呀直接在代码引用就行了import gzip
用python爬取JSON数据时，结果显示【】，里面没有内容 json python 有问必答
2021-11-23 20:55

回答 1 已采纳输出下print(response.text)看看返回的数据是不是json数据你把请求头和表单数据都加上试 import requests import json post_url = 'http:/
用python爬取内涵社区
2019-10-09 21:34

一一一一一Python开发的博客 /usr/bin/env python #coding:utf-8 import requests,io,time from bs4 import BeautifulSoup def neihanjoke(): headers = { 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,ima...
python在post请求下爬取数据，返回的值为什么为空？ python
2019-05-29 17:34

回答 6 已采纳是因为你给的数据不足够，我刚才打开你的网站试了一下。 # header中必须有以下数据 ![图片说明](https://img-ask.csdn.net/upload/201905/30/1559
python 携程_请教两个关于使用 python 爬去哪儿，携程等机票网站的问题
2020-12-03 10:43

weixin_39647180的博客于是我尝试用 python+urllib 对这两个网站上的信息进行抓取。去哪儿的爬虫代码如下：(初学 python 。代码有很多不合理之处。望海涵。)# -*- coding:utf-8 -*-import urllibfrom urllib import requestclass ...
10分钟用python 爬取内涵社区
2019-08-15 20:59

追梦IT男的博客 /usr/bin/env python #coding:utf-8 import requests,io,time from bs4 import BeautifulSoup def neihanjoke(): headers = { 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,ima...
Python安全攻防-从入门到入狱
2022-01-31 20:10

{Yasso}的博客 Python安全攻防-从入门到入狱
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月20日

悬赏问题

¥20 sub地址DHCP问题
¥15 delta降尺度计算的一些细节，有偿
¥15 Arduino红外遥控代码有问题
¥15 数值计算离散正交多项式
¥30 数值计算均差系数编程
¥15 redis-full-check比较两个集群的数据出错
¥15 Matlab编程问题
¥15 训练的多模态特征融合模型准确度很低怎么办
¥15 kylin启动报错log4j类冲突
¥15 超声波模块测距控制点灯，灯的闪烁很不稳定，经过调试发现测的距离偏大

请教大家该怎么正确爬取gzip网站

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新