LoverSeve 2021-08-22 12:49 采纳率: 100%
浏览 66
已结题

爬取小说,只有末尾部分

最近我在爬取小说的时候,出现了爬取到了小说最后一段,开头以及中间部分全部没有了,下面是我写的代码以及请求的内容:


URL = 'https://www.kankezw.com/du/23/23361/1633023.html'

head = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36 Edg/92.0.902.78'
}

html = requests.get(url=URL, headers=head)
html.encoding = 'utf-8'
page_txt = BeautifulSoup(html.text, 'html.parser')
html_txt = page_txt.find('div', attrs={'id': 'content1'})

print(html_txt.text)

    站在原地望着少年那恍如与世隔绝的孤独背影,萧薰儿踌躇了一会,然后在身后一干嫉妒的狼嚎声中,快步追了上去,与少年并肩而行…


  • 写回答

1条回答 默认 最新

  • CSDN专家-showbo 2021-08-22 12:57
    关注

    没问题啊,是不是软件输出超过缓存了只显示最后的

    img

    import requests
    from bs4 import BeautifulSoup
    URL = 'https://www.kankezw.com/du/23/23361/1633023.html'
    head = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36 Edg/92.0.902.78'
    }
    html = requests.get(url=URL, headers=head)
    html.encoding = 'utf-8'
    page_txt = BeautifulSoup(html.text, 'html.parser')
    html_txt = page_txt.find('div', attrs={'id': 'content1'})
    print(html_txt.text)
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

    报告相同问题?

    问题事件

    • 系统已结题 8月30日
    • 已采纳回答 8月22日
    • 创建了问题 8月22日

    悬赏问题

    • ¥15 为什么我的虚拟机运行配置apache的脚本都会错误,重装也没用
    • ¥15 霍利韦尔软件web station N4的安装密码忘记了能找回吗
    • ¥20 帮电子新生画个仿真图吧🥰
    • ¥20 基于STM32F407设计一个贪食蛇游戏,要求:1有开始 、结束界面,能进行游戏设置,如:界面颜色,蛇移动速度。2蛇体能上下左右移动且在界面能随机生成食物,蛇吃后会变长;3小蛇碰壁死亡,显示游戏结束。
    • ¥15 摁摁钮(接P3.4口)无法实现点阵管播放速度调节,大家能帮我看看是什么问题吗?TAT
    • ¥30 小型网络防火墙mstp.vrrp.ospf配置
    • ¥15 grafna发送告警信息
    • ¥15 51单片机,LCD屏幕内容修改
    • ¥20 Ida Pro动态调试
    • ¥15 TensorFlow深度学习拓展项目