lin_lin_er 2021-06-02 11:57 采纳率: 100%
浏览 124
已采纳

求解答requests源代码问题

小子最近新学爬虫,刚进门就遇到拦路虎。求各位大神解答一下。

问题如下:小子要想爬取纵横中文网里面一部小说内容,url=‘http://book.zongheng.com/showchapter/635570.html

从源码分析来看,各个章节的链接数据就直接在网页源代码。但是用requests.get(url),反应回来的数据里确没有相关的链接,

直接导致我就没法进行下一步了。我这操作是哪里出了问题?

  • 写回答

5条回答 默认 最新

  • 江天暮雪丨 2021-06-02 13:59
    关注

    有章节链接呀,是不是你解析的方法不对呢

    import requests
    from lxml import etree
    
    res = requests.get('http://book.zongheng.com/showchapter/635570.html').text
    tree = etree.HTML(res)
    lis = tree.xpath('//li[@class=" col-4"]')
    for li in lis:
        print(li.xpath('./a/@href'))
    
    # Result:
    # ['http://book.zongheng.com/chapter/635570/35301678.html']
    # ['http://book.zongheng.com/chapter/635570/39121298.html']
    # ['http://book.zongheng.com/chapter/635570/35301909.html']
    # ...
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(4条)

报告相同问题?