AlcoSoul 2021-09-20 21:07 采纳率: 75%
浏览 33

请教大家该怎么正确爬取gzip网站

在自学爬虫,想尝试一下爬取小说网站,第一次成功了但发现是乱码。在查完资料之后发现网页是经过gzip压缩的,试了好多方法。但都会有问题。所以想请教一下大家这种gzip网页该怎么处理呢?


    for i in range(0,5):
        #得到需要爬取的url
        title = dd_list[i].a.string
        detail_url = 'https://www.xbiquge.la/' + dd_list[i].a['href']
        #对详情页发起请求,这部分实在弄不明白:(
        req = requests.get(url=detail_url,headers=headers).content
        req_text = gzip.decompress(req).decode('utf-8')
        #解析出详情页中的内容
        data_list = re.findall(ex,req_text,re.S)

        fp.write(title+':\n')
        for DA in data_list:
            fp.write(DA+'\n')
        print(title,'!!!')
  • 写回答

1条回答 默认 最新

  • Mint.Coder 2021-09-22 03:51
    关注

    header中有一个appcet 填上即可

    评论

报告相同问题?

问题事件

  • 创建了问题 9月20日

悬赏问题

  • ¥20 sub地址DHCP问题
  • ¥15 delta降尺度计算的一些细节,有偿
  • ¥15 Arduino红外遥控代码有问题
  • ¥15 数值计算离散正交多项式
  • ¥30 数值计算均差系数编程
  • ¥15 redis-full-check比较 两个集群的数据出错
  • ¥15 Matlab编程问题
  • ¥15 训练的多模态特征融合模型准确度很低怎么办
  • ¥15 kylin启动报错log4j类冲突
  • ¥15 超声波模块测距控制点灯,灯的闪烁很不稳定,经过调试发现测的距离偏大