多线程爬虫的设计问题

大家好，最近要写个基于爬虫的小工具，主要是爬行单个网站并解析数据保存其中需要的内容。
我的想法是这样的，爬行线程从unsearchedUrl队列中取出url，去请求该url将获取的页面响应及其url存入到unparsedResponse队列中，解析线程从unparsedResponse队列中取出一条响应，分析该响应中包含的超链接，过滤掉重复的链接后存入unsearchedUrl队列中，当然，解析线程还要进行其他内容的提取。我这样做主要是为了提高性能，对每个url只进行一次网络访问。
现在主要的问题是单个的线程实现了，可是爬行线程和解析线程同时多个进行不知该怎么弄，麻烦大家给分析分析，谢谢！
下面是参考流程图。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
iteye_7115 2010-09-06 17:46
关注
你可以试下用线程池,取得的url可以放到队列中

看看java.util.concurrent包下的相关类

如线程池类：java.util.concurrent.ThreadPoolExecutor

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

多线程爬虫加锁的问题 python 爬虫
2022-11-02 16:22

回答 1 已采纳我觉得可以给这个visited 用原子数组包装下，但这只保证了原子性，还需要加个volatile 保证可见性。
关于python 爬虫项目多线程的问题！ python 有问必答爬虫
2022-04-09 22:19

回答 2 已采纳用pypy,namba（需重构，加装饰器）,cython（需重构，显式声明类型）用正则表达式更快，但适用性会降低灵活运用异步减少中间值的使用少用for循环控制线程数量，考虑协程、多进程，因为有GIL的
python爬虫怎么改成多线程 python 爬虫
2022-04-29 12:58

回答 6 已采纳楼上的这些线程改造方式放在这里行不通吧。楼主代码中IO操作在循环的地方，这里线程不是应该将循环改成多线程吗。。。##改了一个循环，试一下 ```python import parsel impor
Python程序设计：多线程爬虫.pptx
2022-06-12 20:13

多线程爬虫有道翻译知识点：多线程爬虫的编写进程与线程概念进程操作系统像是一个奇怪的工厂，因为工人人数有限，每次只能支持一个车间开工。开工运转的车间就是进程，它是操作系统资源调度的单位。进程与线程...
多线程爬虫的设计问题
2010-09-06 17:29

回答 2 已采纳你可以试下用线程池,取得的url可以放到队列中看看java.util.concurrent包下的相关类如线程池类：java.util.concurrent.ThreadPoolExec
python异步协程和多线程问题 python 有问必答爬虫
2021-11-25 21:18

回答 1 已采纳 aiohttp的高并发用了协程，而request+线程只是多线程，这个不一样。理论上是aiohttp速度比request+线程的快，但爬虫太快很容易被反爬
基于Linux的python多线程爬虫程序设计.pdf
2021-06-29 12:43

基于Linux的python多线程爬虫程序设计.pdf
sqlserver多线程查询问题 sqlserver 数据库
2022-06-30 09:08

回答 1 已采纳支持的，更新也是支持的，查询就更支持了
多线程程序出现的问题 java
2017-08-16 09:06

回答 2 已采纳问题分几部分，不知道这么讲你能不能懂 1.如果在有else的正常情况下，计数x不管set执不执行，“司令”这个内容是无论如何都输入不进去的。写入（SiLing），停（女），写入（Ling），停（女）
C#winform中的多线程问题 c#
2017-12-26 04:16

回答 6 已采纳两个可能性，一个是你的点太多，或者持续增多，导致内存溢出。一个是你没有正确同步或者滥用同步，造成不必要的上锁。不知道你是怎么绘制的坐标点，是否启用了双缓冲，启用双缓冲可以提高性能。用vs带
python多线程爬虫爬取电影天堂资源
2024-03-15 12:43

Python多线程爬虫爬取电影天堂资源是一个实用且具有挑战的项目。以下是对该项目的详细说明: 1. 项目概述: 该项目旨在使用Python编写一个多线程爬虫程序,从电影天堂网站上爬取电影资源信息,包括电影名称、年份、类型...
java多线程初级新手问题 java
2017-09-21 15:06

回答 2 已采纳这么说吧，你两个线程访问的是同一个线程对象，；当其中一个线程在执行打印的那条语句的时候，另一线程也来读取了，所以就有可能出现另一个线程没有打印全，你可以观察下，除了初始值100 可能相同，其它
Python爬虫编程7——多线程爬虫
2022-02-27 12:16

彩色的泡沫的博客多线程基本介绍程序中模拟多任务二.多线程的创建三.主线程与子线程的执行关系四.查看线程数量五.线程间的通信（多线程共享全局变量）六.线程间的资源竞争互斥锁和死锁互斥锁死锁七.Queue线程 ...
基于Linux的python多线程爬虫程序设计.zip
2021-10-16 15:37

基于Linux的python多线程爬虫程序设计
没有解决我的问题, 去提问

悬赏问题

¥15 如何获取烟草零售终端数据
¥15 数学建模招标中位数问题
¥15 phython路径名过长报错不知道什么问题
¥15 深度学习中模型转换该怎么实现
¥15 HLs设计手写数字识别程序编译通不过
¥15 Stata外部命令安装问题求帮助！
¥15 从键盘随机输入A-H中的一串字符串，用七段数码管方法进行绘制。提交代码及运行截图。
¥15 TYPCE母转母，插入认方向
¥15 如何用python向钉钉机器人发送可以放大的图片？
¥15 matlab（相关搜索：紧聚焦）

多线程爬虫的设计问题

2条回答 默认 最新

悬赏问题

2条回答默认最新