https://yc.ifeng.com/book/3252558/1/
这个地址的小说内容爬不出来,怎么解决呢?用selenium可以爬出来,但是别的就不会了,有更好的办法吗?为什么会出现源代码中能看到内容,在python中返回就缺失了内容
元素中可以看到内容,python返回就没有了
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
3条回答 默认 最新
- 无序繁星 2023-10-05 19:14关注
以下代码本地测试是可以爬取的,那个特殊换行不知道复制出来对不对,可以自己试试
import re import requests url = 'https://yc.ifeng.com/book/3252558/1/' headers = {'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36'} res = requests.get(url,headers=headers) # 使用正则获取文章的unicode编码字符 pattern = 'html\(unescape\("(?P<data>.*)"\)\);' match = re.search(pattern,res.text) data = match.group('data') # 解码unicode字符 ans = data.replace(r'%','\\').encode('utf-8').decode('unicode_escape') # 替换特殊换行字符 newline = 'CbrFECbrFE' print(ans.replace(newline, '\n'))
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 1无用
悬赏问题
- ¥15 WPF动态创建页面内容
- ¥15 如何对TBSS的结果进行统计学的分析已完成置换检验,如何在最终的TBSS输出结果提取除具体值及如何做进一步相关性分析
- ¥15 SQL数据库操作问题
- ¥100 关于lm339比较电路出现的问题
- ¥15 Matlab安装yalmip和cplex功能安装失败
- ¥15 加装宝马安卓中控改变开机画面
- ¥15 STK安装问题问问大家,这种情况应该怎么办
- ¥15 关于罗技鼠标宏lua文件的问题
- ¥15 halcon ocr mlp 识别问题
- ¥15 已知曲线满足正余弦函数,根据其峰值,还原出整条曲线