停停停跳跳糖 2023-10-05 18:05 采纳率: 100%
浏览 6
已结题

元素中可以看到内容,python返回就没有了

https://yc.ifeng.com/book/3252558/1/
这个地址的小说内容爬不出来,怎么解决呢?用selenium可以爬出来,但是别的就不会了,有更好的办法吗?为什么会出现源代码中能看到内容,在python中返回就缺失了内容

  • 写回答

3条回答 默认 最新

  • 无序繁星 2023-10-05 19:14
    关注

    以下代码本地测试是可以爬取的,那个特殊换行不知道复制出来对不对,可以自己试试

    import re
    import requests
    
    url = 'https://yc.ifeng.com/book/3252558/1/'
    headers = {'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36'}
    res = requests.get(url,headers=headers)
    # 使用正则获取文章的unicode编码字符
    pattern = 'html\(unescape\("(?P<data>.*)"\)\);'
    match = re.search(pattern,res.text)
    data = match.group('data')
    # 解码unicode字符
    ans = data.replace(r'%','\\').encode('utf-8').decode('unicode_escape')
    # 替换特殊换行字符
    newline = 'CbrFECbrFE'
    print(ans.replace(newline, '\n'))
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
    1人已打赏
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 10月14日
  • 已采纳回答 10月6日
  • 创建了问题 10月5日

悬赏问题

  • ¥15 WPF动态创建页面内容
  • ¥15 如何对TBSS的结果进行统计学的分析已完成置换检验,如何在最终的TBSS输出结果提取除具体值及如何做进一步相关性分析
  • ¥15 SQL数据库操作问题
  • ¥100 关于lm339比较电路出现的问题
  • ¥15 Matlab安装yalmip和cplex功能安装失败
  • ¥15 加装宝马安卓中控改变开机画面
  • ¥15 STK安装问题问问大家,这种情况应该怎么办
  • ¥15 关于罗技鼠标宏lua文件的问题
  • ¥15 halcon ocr mlp 识别问题
  • ¥15 已知曲线满足正余弦函数,根据其峰值,还原出整条曲线