爬取数据一直增加的页面

各位大侠，小弟有个爬虫业务实现的问题。我现在要爬取一个网站，假设是新闻网站吧，网站底部有很多页码：1-999，但是这个网站它的新闻数据是一直在增加的，几分钟就会增加一条数据，旧的数据会往下移，甚至移动到后面的页码中。请问我应该怎么实现我的爬虫？

提取url做去重吗？请各位不吝赐教！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
「已注销」 2021-01-11 19:59
关注
把所爬具体文章url存入文本，或仅存最后次url。下一次开始时先判断页面是否包含最后次url，即有存在列表中哪个位置。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 2
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

爬取数据一直增加的页面 python
2020-12-29 10:53

回答 2 已采纳把所爬具体文章url存入文本，或仅存最后次url。下一次开始时先判断页面是否包含最后次url，即有存在列表中哪个位置。
python 爬取表格获取不到数据 python
2020-02-17 22:52

回答 4 已采纳爬取需要在请求头里面添加Host，要不然爬取不到任何信息，另外源码是不规则的html代码，所以需要指定html解析器 ``` # -*- coding：utf-8 -*- import os
python爬取ashx页面的post请求 python
2018-03-18 06:59

回答 2 已采纳这个网站有多一层东西，你可以这么干。先请求http://www.lzggzyjy.cn/InfoPage/InfoList.aspx?SiteItem=8 然后用正则找到然后请求这个/aja
Python数据爬取超详细讲解（零基础入门，老年人都看的懂）
2020-07-13 11:16

码农BookSea的博客关于Python爬虫的超详细讲解，用例子来给大家一步步分析爬虫的代码原理，由浅入深，老年人来了，我也给你整明白。
python selenuim 爬取多页数据 python 有问必答爬虫
2022-06-05 15:43

回答 2 已采纳网页不刷新应该是翻页是通过ajax获取后端数据的，你看看网页是怎样触发ajax请求的
Python爬虫 XPath 爬取的数据为空 python
2021-11-20 15:43

回答 2 已采纳
爬取数据html页面时标签之间的内容没有了 python 有问必答
2021-05-17 16:12

回答 5 已采纳可能页面是异步加载的，要F12分析页面数据加载的链接参数传递，对数据进行post或get,参考https://blog.csdn.net/qq_38396897/article/details/823
Python 学习 02 —— Python如何爬取数据
2021-07-08 23:24

老板来碗小面加蛋~的博客文章目录系列文章二、Python爬虫1、任务介绍2、爬虫简介3、基本流程3.1、准备工作3.1.1、分析页面3.1.2、编码规范3.1.3、导入模块3.1.4、程序流程3.2、获取数据3.3、解析数据3.4、保存数据3.4.1、Excel表存储3.4.1、...
selenium爬取数据异常 python selenium 爬虫
2022-05-03 21:12

回答 1 已采纳数据在哪就在哪页爬，页面不显示的一般元素没有加载，你自然取不到啊
关于Python 网络数据爬虫爬取不到数据 python
2020-06-01 15:18

回答 1 已采纳抓包看看，尤其注意url上的参数、cookie、postdata、method(get/post)、referer、useragent和content-type
Python selenium的爬虫无法完整爬取整个页面的内容 python selenium 爬虫
2021-10-24 09:44

回答 1 已采纳爬取内容不完整，应该是文档的更多内容，要往下滑动页面才会出现这个不太清楚，应该不是什么反爬，就是类似于中途给你弹出个广告，要具体分析怎么弄VIP内容肯定是需要你的账号是VIP才能看得到的，与selen
python爬虫爬取多个页面_Python 爬虫爬取多页数据
2020-11-21 00:50

weixin_39583222的博客但是，按照常规的爬取方法是不可行的，因为数据是分页的：最关键的是，不管是第几页，浏览器地址栏都是不变的，所以每次爬虫只能爬取第一页数据。为了获取新数据的信息，点击F12，查看页面源代码，可以发现数据是...
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python爬虫：爬取新浪新闻数据
2021-01-20 03:10

我们可以试试爬取新浪新闻首页,我们发现会返回403 ,因为对方服务器会对爬虫进行屏蔽。此时,我们需要伪装成浏览器才能爬取。 1.实战分析：浏览器伪装一般通过报头进行：打开某个网页，按F12—Network— 任意点一个...
python爬取网页json数据_python爬取json数据库
2020-12-22 12:28

weixin_39621794的博客手把手教你使用Python抓取QQ音乐数据(第一弹)【一、项目目标】获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名、专辑名、播放链接。由浅入深，层层递进，非常适合刚入门的同学练手。【二、需要的库】主要涉及的库...
没有解决我的问题, 去提问

悬赏问题

¥15 uniapp uview http 如何实现统一的请求异常信息提示？
¥15 有了解d3和topogram.js库的吗？有偿请教
¥100 任意维数的K均值聚类
¥15 stamps做sbas-insar，时序沉降图怎么画
¥15 买了个传感器，根据商家发的代码和步骤使用但是代码报错了不会改，有没有人可以看看
¥15 关于#Java#的问题，如何解决？
¥15 加热介质是液体，换热器壳侧导热系数和总的导热系数怎么算
¥100 嵌入式系统基于PIC16F882和热敏电阻的数字温度计
¥15 cmd cl 0x000007b
¥20 BAPI_PR_CHANGE how to add account assignment information for service line

爬取数据一直增加的页面

2条回答 默认 最新

悬赏问题

2条回答默认最新