最近我在做一个爬虫毕业设计,爬虫分为2个队列,对应两张数据表seeds和targets,seeds是尽可能多的爬url,targets是分析seeds中的url是否为我所要的,是则插入,否则过掉。
而我现在的问题是,由于网页上的url可以看成是多叉树(因为每个链接进去后,又会爬到更多的链接……),所以seeds队列的记录以指数级增长,而targets却几乎是线性增长的,很明显跟不上seeds速度,所以现在出现一种情况是程序执行10多秒后,seeds表中爬到了8000多个url,但targets表才100来个记录。。这样的话seeds显得过于臃肿,而targets却比较空闲。
请教各位朋友是如何解决这两者的矛盾呢?