在自学爬虫,想尝试一下爬取小说网站,第一次成功了但发现是乱码。在查完资料之后发现网页是经过gzip压缩的,试了好多方法。但都会有问题。所以想请教一下大家这种gzip网页该怎么处理呢?
for i in range(0,5):
#得到需要爬取的url
title = dd_list[i].a.string
detail_url = 'https://www.xbiquge.la/' + dd_list[i].a['href']
#对详情页发起请求,这部分实在弄不明白:(
req = requests.get(url=detail_url,headers=headers).content
req_text = gzip.decompress(req).decode('utf-8')
#解析出详情页中的内容
data_list = re.findall(ex,req_text,re.S)
fp.write(title+':\n')
for DA in data_list:
fp.write(DA+'\n')
print(title,'!!!')