有做爬虫经验的朋友，请教爬虫抓取url时的队列处理问题

最近我在做一个爬虫毕业设计，爬虫分为2个队列，对应两张数据表seeds和targets，seeds是尽可能多的爬url，targets是分析seeds中的url是否为我所要的，是则插入，否则过掉。

而我现在的问题是，由于网页上的url可以看成是多叉树（因为每个链接进去后，又会爬到更多的链接……），所以seeds队列的记录以指数级增长，而targets却几乎是线性增长的，很明显跟不上seeds速度，所以现在出现一种情况是程序执行10多秒后，seeds表中爬到了8000多个url，但targets表才100来个记录。。这样的话seeds显得过于臃肿，而targets却比较空闲。

请教各位朋友是如何解决这两者的矛盾呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
beneo 2011-01-02 15:26
关注
采用正则表达是来过滤是一个很通用的做法，有的还有模版之类的。

但是你现在的是爬新浪微薄的博客对吧，不知道你是通过什么知道http://blog.sina.com.cn/s/blog_xxxxxxxxxxxxxxxx.html 就是你要的target

因为blog static id 都是加密过的 blogId，所以你可以看到就算一个博主下面所有的blog static id 都是没有规律的

所以我觉得你可以通过关系来爬，比如从博主，找到博友，在来找文章

感觉有点博客搬家的感觉

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(4条)

报告相同问题？

关注问题

有做爬虫经验的朋友，请教爬虫抓取url时的队列处理问题
2011-01-01 22:07

回答 5 已采纳采用正则表达是来过滤是一个很通用的做法，有的还有模版之类的。但是你现在的是爬新浪微薄的博客对吧，不知道你是通过什么知道http://blog.sina.com.cn/s/blog_xxxxxx
写爬虫时for in 循环有问题 python selenium 爬虫
2022-08-04 17:07

回答 2 已采纳 pro_list = a2.xpath('//*[@class="item4line1"]/dl') print(pro_list) for pro in pro_list: pic = pr
使用jsoup爬虫时，页面标签有变化如何处理 java 爬虫
2022-01-05 11:52

回答 1 已采纳那看外面还有大标签嘛.爬虫的话.一般标签发生变化也就是网页改版.是需要重新修改代码的.没有一劳永逸的.就是爬虫代码是需要维护更新的
小型抓图爬虫程序实现c++
2017-07-18 09:48

草一由点的博客 **小型抓图爬虫程序实现**最近得到偶然机会到公司实习，实践发现有很多东西不懂。...实现方法是，先把主网页从page_url队列中提取，再提取其中的a标签href链接和img标签的src链接，分别加入page_url队列和image_
搞过推特爬虫的进，抓取推特出现问题 javascript python 有问必答爬虫
2022-02-08 17:27

回答 2 已采纳对的，失效了，关键词还可以抓
python爬虫问题，有的视频按钮没有绑定跳转的url，在哪里才能找到呢？ python 爬虫
2022-02-22 23:58

回答 1 已采纳一般都是视频流，ajax动态加载，f12在network的xhr中抓包，可以找到包含每一段视频流链接的文件，像下面这样的文件 #EXTM3U #EXT-X-STREAM-INF: PROGRAM-ID
请问有做爬虫的朋友嘛，这边有问题需要咨询下 python
2021-11-24 19:15

回答 4 已采纳还是个学生吧，问题都不描述，直接让人来解决，人又不是神。
快速构建实时抓取集群
2019-10-06 02:09

a13393665983的博客快速构建实时抓取集群 http://www.searchtb.com/2011/07/%E5%BF%AB%E9%80%9F%E6%9E%84%E5%BB%BA%E5%AE%9E%E6%97%B6%E6%8A%93%E5%8F%96%E9%9B%86%E7%BE%A4...
python爬虫有一些小问题 pycharm python 爬虫
2023-03-12 01:58

回答 4 已采纳。。。。你要明白，源文件和查看元素的区别在浏览器里，使用查看元素方式得到的是已经经过浏览器渲染之后的数据而查看源文件，则是真正这个页面返回的数据那么问题来了，你在查看元素时有，但抓取时没有，那么
用python做爬虫遇到的问题 python 爬虫
2021-09-11 14:26

回答 2 已采纳
beautifulSoup4爬虫问题，python简单代码请教一下 python 有问必答爬虫
2022-01-15 17:29

回答 1 已采纳就是获取 soup.find_all("script", type="text/javascript") 返回的结果，取第3个元素的文本。
webmagic采集CSDN的Java_WebDevelop页面
2016-05-23 09:53

小扁加油的博客 userID=", spring mvc 异常处理 HandlerExceptionResolver 不能返回到视图, echarts动态设置X轴的值时，始终无法显示相关值, .jsp, spring mvc 表单类, DriverManager.getConnection()返回值类型问题, 阿里大鱼API...
python爬虫，etree模块有问题 python 爬虫
2022-07-02 00:17

回答 1 已采纳你HtML 中T写成小写了, HTML应该是全大写另外 li 是 Element元素不能与字符串拼接. 需要用li.text获取元素中的文本print(li+'\n')fp.write(li+'\
学习笔记 | 茴香豆：搭建你的RAG智能助理
2024-04-18 13:22

DrFlown的博客拒答分数在检索过程中通过与示例...增强搜索利用知识领域的源文件建立图数据库，当模型判断问题为无关问题或回答失败时，增强搜索功能将利用 LLM 提取的关键词在该图数据库中搜索，并尝试用搜索到的内容重新生成答案。
JavaScript笔记
2022-03-13 17:21

WhyNotZero_的博客 //结果是1 类型是number var result = 1 + undefined //结果是NaN 类型是number null会自动的转换为0， undefined会自动的转为NaN 总结：任何其他数据除了和字符串做相加操作外，与数字类型做算术运算时，其他数据...
没有解决我的问题, 去提问

悬赏问题

¥15 shape_predictor_68_face_landmarks.dat
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 对于相关问题的求解与代码
¥15 ubuntu子系统密码忘记
¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
¥15 保护模式-系统加载-段寄存器
¥15 电脑桌面设定一个区域禁止鼠标操作
¥15 求NPF226060磁芯的详细资料
¥15 使用R语言marginaleffects包进行边际效应图绘制

有做爬虫经验的朋友，请教爬虫抓取url时的队列处理问题

5条回答 默认 最新

悬赏问题

5条回答默认最新