起个马甲好困难 2011-01-01 22:07
浏览 510
已采纳

有做爬虫经验的朋友,请教爬虫抓取url时的队列处理问题

最近我在做一个爬虫毕业设计,爬虫分为2个队列,对应两张数据表seeds和targets,seeds是尽可能多的爬url,targets是分析seeds中的url是否为我所要的,是则插入,否则过掉。

而我现在的问题是,由于网页上的url可以看成是多叉树(因为每个链接进去后,又会爬到更多的链接……),所以seeds队列的记录以指数级增长,而targets却几乎是线性增长的,很明显跟不上seeds速度,所以现在出现一种情况是程序执行10多秒后,seeds表中爬到了8000多个url,但targets表才100来个记录。。这样的话seeds显得过于臃肿,而targets却比较空闲。

请教各位朋友是如何解决这两者的矛盾呢?

  • 写回答

5条回答 默认 最新

  • beneo 2011-01-02 15:26
    关注

    采用正则表达是来过滤是一个很通用的做法,有的还有模版之类的。

    但是你现在的是爬新浪微薄的博客对吧,不知道你是通过什么知道http://blog.sina.com.cn/s/blog_xxxxxxxxxxxxxxxx.html 就是你要的target

    因为blog static id 都是加密过的 blogId, 所以你可以看到就算一个博主下面所有的blog static id 都是没有规律的

    所以我觉得你可以通过关系来爬,比如从博主,找到博友,在来找文章

    感觉有点博客搬家的感觉

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(4条)

报告相同问题?

悬赏问题

  • ¥15 HFSS 中的 H 场图与 MATLAB 中绘制的 B1 场 部分对应不上
  • ¥15 如何在scanpy上做差异基因和通路富集?
  • ¥20 关于#硬件工程#的问题,请各位专家解答!
  • ¥15 关于#matlab#的问题:期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707,使系统具有较小的超调量
  • ¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
  • ¥30 截图中的mathematics程序转换成matlab
  • ¥15 动力学代码报错,维度不匹配
  • ¥15 Power query添加列问题
  • ¥50 Kubernetes&Fission&Eleasticsearch
  • ¥15 報錯:Person is not mapped,如何解決?