python爬小说用requests库获取不到正文内容，网页的请求方式是检查元素是get方式，也不是异步加载，用get提取出来只有其它字符，正文不见了


import requests

url = 'https://www.xbiquge.la/58/58814/24298867.html'

headers = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Encoding':'gzip, deflate, br',
'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
'Cache-Control':'max-age=0',
'Connection':'keep-alive',
'Cookie':'Hm_lvt_169609146ffe5972484b0957bd1b46d6=1632444573,1632445219,1632445377,1632459924; Hm_lpvt_169609146ffe5972484b0957bd1b46d6=1632459933',
'Host':'www.xbiquge.la',
'Referer':'https://www.xbiquge.la/58/58814/',
'Sec-Fetch-Dest':'document',
'Sec-Fetch-Mode':'navigate',
'Sec-Fetch-Site':'same-origin',
'Sec-Fetch-User':'?1',
'Upgrade-Insecure-Requests':'1',
'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:92.0) Gecko/20100101 Firefox/92.0'}

html = requests.get(url,headers).content.decode('utf-8')

print(html)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

CSDN专家-天际的海浪 2021-09-24 19:24

关注

可以获取到，因为这个网页中换行时,有的只用了回车符（\r）没有加换行符（\n）
在控制台打印时回车符（\r）与换行符（\n）效果是不一样的。
回车符（\r）在控制台打印中是把光标回到本行的开头，不会换行。
下一行的内容会覆盖本行已打印了的内容。
比如
print("abcd\ref")
制台打印
efcd

你把\r替换成\n 即可。
html = html.replace("\r","\n")

你题目的解答代码如下：（如有帮助，望采纳！谢谢! 点击我这个回答右上方的【采纳】按钮）

import requests
url = 'https://www.xbiquge.la/58/58814/24298867.html'
headers = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Encoding':'gzip, deflate, br',
'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
'Cache-Control':'max-age=0',
'Connection':'keep-alive',
'Cookie':'Hm_lvt_169609146ffe5972484b0957bd1b46d6=1632444573,1632445219,1632445377,1632459924; Hm_lpvt_169609146ffe5972484b0957bd1b46d6=1632459933',
'Host':'www.xbiquge.la',
'Referer':'https://www.xbiquge.la/58/58814/',
'Sec-Fetch-Dest':'document',
'Sec-Fetch-Mode':'navigate',
'Sec-Fetch-Site':'same-origin',
'Sec-Fetch-User':'?1',
'Upgrade-Insecure-Requests':'1',
'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:92.0) Gecko/20100101 Firefox/92.0'}
html = requests.get(url,headers).content.decode('utf-8')

html = html.replace("\r","\n")

print(html)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

python爬虫基于requests模块发起ajax的get请求实现解析
2020-09-18 19:21

本文将详细介绍如何使用Python中的requests模块来发起AJAX的GET请求，进而实现页面数据的解析。通过具体的实例，我们将探讨如何获取豆瓣电影分类排行榜中的电影详情数据，其中包括使用抓包工具分析AJAX请求、定制...
Python爬虫代码，用于处理带有动态加载内容的网页，其中使用了Requests、Selenium和BeautifulSoup
2023-08-17 11:30

**导入所需库**：这里导入了必要的Python库，包括`time`用于控制页面加载的等待时间，`requests`虽然在示例中没有使用，但可以用于获取静态网页，`BeautifulSoup`用于解析HTML文档，以及`webdriver`用于控制浏览器。...
一个简单的Python爬虫示例，使用了requests库来发送HTTP请求，以及BeautifulSoup库来解析HTML页面这个示例将从一个简单的网页中获取标题并打印出来
2025-01-04 19:32

通过它，可以轻松地发送GET或POST请求，以获取网页内容或向服务器发送数据。 BeautifulSoup库则是一个用于解析HTML和XML文档的库，它提供了许多方便的工具，使得从网页中提取数据变得简单高效。在解析HTML内容时，...
Python爬虫 requests库 get/post请求获取响应内容
2020-09-16 02:12

Tsai时越的博客 import requests r=requests.get('http://www.lingzhilab.com/resources/getAllRes?page=1') # u'文本内容' print(r.content) # 文本编码 print(r.apparent_encoding) # utf-8 # 响应状态码 print(r.status_code) ...
Python入门第11课：Python网络请求入门，使用requests库轻松获取网页数据
2025-08-19 14:12

是蛋皮的博客在使用响应内容前，务必检查或使用。避免程序因网络问题卡死。使用try-except捕获网络请求中可能发生的各种异常。如果进行网页抓取（Web Scraping），请检查网站的robots.txt文件（如）和使用条款，避免过于频繁的...
Python程序设计：使用requests库下载页面.pptx
2022-06-13 15:25

以下载豆瓣电影Top250首页为例，我们可以创建一个名为`douban.py`的Python脚本，使用`requests.get()`方法发送GET请求，获取网页内容。然后可以结合`beautifulsoup`或`lxml`解析并提取所需信息。 **爬虫编写的基本...
requests或selenium获取网页内容不全问题(非异步加载)
2023-01-14 12:34

孤星入命孑然一身的博客 requests或selenium获取静态页面加载不全问题
Python使用grequests(gevent+requests)并发发送请求过程解析
2020-09-18 15:06

Python使用grequests进行并发请求的过程包括以下几个重要知识点： 1. Python中的requests库：Python开发人员通常使用requests库来发送HTTP请求。requests库提供了一种简单易用的方法来处理HTTP/1.1协议，使用起来...
python获取网页源码不完整_Python轻松实现动态网页爬虫，附带完整的项目代码！...
2020-12-06 20:02

weixin_39628247的博客事情是这样的，因为经常写爬虫的文章，发出去不到一天，一名从业10年的王律师找到了我，我虽然同意了他的微信申请，但内心是按奈不住的慌张。简单交流了下，原来他在自学爬虫，但他发现翻页的时候，url一直不变。...
不到200行Python代码爬个小说网站源码.rar
2023-01-29 21:45

本项目名为“不到200行Python代码爬个小说网站源码”，其核心目标是利用简洁的代码实现对小说网站的爬取，获取源码数据。下面将详细介绍这一过程涉及的主要知识点。首先，我们要了解Python中的网络请求库，如...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 10月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月24日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 9月24日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月24日

python爬小说用requests库获取不到正文内容，网页的请求方式是检查元素是get方式，也不是异步加载，用get提取出来只有其它字符，正文不见了

2条回答 默认 最新

问题事件

2条回答默认最新