各位大侠,小弟有个爬虫业务实现的问题。我现在要爬取一个网站,假设是新闻网站吧,网站底部有很多页码:1-999,但是这个网站它的新闻数据是一直在增加的,几分钟就会增加一条数据,旧的数据会往下移,甚至移动到后面的页码中。请问我应该怎么实现我的爬虫?
提取url做去重吗?请各位不吝赐教!
各位大侠,小弟有个爬虫业务实现的问题。我现在要爬取一个网站,假设是新闻网站吧,网站底部有很多页码:1-999,但是这个网站它的新闻数据是一直在增加的,几分钟就会增加一条数据,旧的数据会往下移,甚至移动到后面的页码中。请问我应该怎么实现我的爬虫?
提取url做去重吗?请各位不吝赐教!
把所爬具体文章url存入文本,或仅存最后次url。下一次开始时先判断页面是否包含最后次url,即有存在列表中哪个位置。