y4ung 2020-12-29 10:53 采纳率: 100%
浏览 11
已采纳

爬取数据一直增加的页面

各位大侠,小弟有个爬虫业务实现的问题。我现在要爬取一个网站,假设是新闻网站吧,网站底部有很多页码:1-999,但是这个网站它的新闻数据是一直在增加的,几分钟就会增加一条数据,旧的数据会往下移,甚至移动到后面的页码中。请问我应该怎么实现我的爬虫?

 

提取url做去重吗?请各位不吝赐教!

  • 写回答

2条回答 默认 最新

  • 「已注销」 2021-01-11 19:59
    关注

    把所爬具体文章url存入文本,或仅存最后次url。下一次开始时先判断页面是否包含最后次url,即有存在列表中哪个位置。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

悬赏问题

  • ¥15 uniapp uview http 如何实现统一的请求异常信息提示?
  • ¥15 有了解d3和topogram.js库的吗?有偿请教
  • ¥100 任意维数的K均值聚类
  • ¥15 stamps做sbas-insar,时序沉降图怎么画
  • ¥15 买了个传感器,根据商家发的代码和步骤使用但是代码报错了不会改,有没有人可以看看
  • ¥15 关于#Java#的问题,如何解决?
  • ¥15 加热介质是液体,换热器壳侧导热系数和总的导热系数怎么算
  • ¥100 嵌入式系统基于PIC16F882和热敏电阻的数字温度计
  • ¥15 cmd cl 0x000007b
  • ¥20 BAPI_PR_CHANGE how to add account assignment information for service line