y4ung 2020-12-29 10:53 采纳率: 100%
浏览 14
已采纳

爬取数据一直增加的页面

各位大侠,小弟有个爬虫业务实现的问题。我现在要爬取一个网站,假设是新闻网站吧,网站底部有很多页码:1-999,但是这个网站它的新闻数据是一直在增加的,几分钟就会增加一条数据,旧的数据会往下移,甚至移动到后面的页码中。请问我应该怎么实现我的爬虫?

 

提取url做去重吗?请各位不吝赐教!

  • 写回答

2条回答 默认 最新

  • 「已注销」 2021-01-11 19:59
    关注

    把所爬具体文章url存入文本,或仅存最后次url。下一次开始时先判断页面是否包含最后次url,即有存在列表中哪个位置。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?