请教爬虫大虾，采用何种python爬虫架构？

现在的项目需要一个爬虫，爬取论文内容，只有中文论文，基本都是文字内容。另外后期会增加多个网站。前期要一次性爬取现有几千万篇，同时每天更新几万篇左右。整个爬虫采用何种框架，以及为什么采用这种框架，有何优缺点？需不需要分布式？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
shen_wei 2017-03-14 03:35
关注
http://www.cnblogs.com/skying555/p/5021257.html

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python后端开发或爬虫怎么系统学习？ python 后端爬虫
2023-04-13 13:18

回答 1 已采纳爬虫严格来讲并不算一个大方向，更偏向于js逆向，python的话推荐走后端方向至于系统学习的话，推荐去blibili找一些路线，然后根据路线去找bilibili上播放量比较高的视频进行系统学习
Python爬虫.*?匹配时的疑惑 python 爬虫
2022-09-21 11:27

回答 4 已采纳 .*?点代表任意字符星表示前面的字符重复任意次数点星就表示任意长度的字符串问号表示非贪婪匹配，也就是匹配到第一个能跟后续字符匹配的字符串就结束-=-=-=那么好了，两个匹配，一个是item.*?tit
如何解决python爬虫问题？ python 人工智能爬虫
2022-08-15 09:11

回答 1 已采纳应该是css选择器里面的规则不够明确，可改成href = selectors.css('div.container div div div ul li a::attr(href)').getall()
python 爬虫输出为空_爬虫输出文件为空，求解答
2021-02-03 04:18

weixin_39661129的博客 _': f = open('mtjd3.csv', 'w') list = ["大虾来了","夹克的虾","簋街仔仔","辣私房","烧虾师"] page = [] for i in list: page.append(i) print(page) pool = ThreadPool(4) results = pool.map(spider, page) ...
Python爬虫可行？？？ python 有问必答
2021-07-06 07:10

回答 2 已采纳不登陆的情况下不可以爬数据，网站会自动验证登录状态，你可以cookies去做，实际上也是已经登录了用户。如果跳过登录直接拿数据，就是入侵了，一般技术是做不到，而且难度大也是违法。如果对你有帮助，可以点
Python爬虫只解析了一部分网页？ python 爬虫
2021-11-19 14:39

回答 1 已采纳第一个问题，你用html.xpath('//div[@class="co_content8"]/ul/table')找不到，是因为在table那一类，有很多分支标签，所以定位不到具体的元素。第二个问题
爬虫如何爬网上的表格？Python python 爬虫
2022-08-17 18:46

回答 2 已采纳爬虫如何爬网上的表格？你是不是一点不会爬虫？
爬虫入门经典(二十一) | 破解CSS加密之爬取大众点评
2020-11-18 14:35

不温卜火的博客那么这个时候我们就要有作为一名爬虫爱好者的敏锐性，我们如果发现url中存在中文的话就需要立马想到url编码和解密。如果不进行解密的话，我们直接使用是无法的到结果的。如果不信的话，博主在此给出测试。首先，...
我的python爬虫的循环遍历为什么报错？ python 爬虫
2023-01-17 13:25

回答 5 已采纳你把res打印出来看下。应该是request.get方法没有获取到数据，或者获取的数据格式和你想要的不一致，所以报错了。如果是获取的数据不对，检查下您的请求参数是否正确。
请问这样的python爬虫Header报错应该怎么办？ python 爬虫
2023-01-17 10:14

回答 2 已采纳 request.get那一行要缩进，放到collect的方法里面去，现在看起来是在方法外面啊！请采纳！！
python爬虫获取内容不全是怎么回事？ python 爬虫
2023-03-01 15:21

回答 2 已采纳你访问的这个接口就只有五千多条数据，您可以在返回的数据中看到，你可以把获取到的数据输出下resp.json()：totalCount': 5860, 'totalPages': 59因此，如果要爬取更
Python爬虫天气预览总结
2020-12-14 22:55

太阳神2020的博客 #Python爬虫天气预览总结一、爬取天气预报思路确定爬取的天气预报城市网址首先确定所要爬取天气预报的地址，找到各个城市查询的网址，例如：https://www.tianqi.com/chinacity.html url = '...
关于python爬虫的问题，如何解决？ python 爬虫
2022-09-24 14:13

回答 1 已采纳可以看下python参考手册中的 python- 接下来？
爬虫——————爬取中金所，深交所，上交所期权数据
2020-12-11 17:17

神出鬼没，指的就是我!的博客请诸位大虾见到给小弟一点帮助，如何解决。多谢！！！！！！！！！！ """" with open('D:/结果存放3.xlsx', 'ab') as file_handle: file_handle.write(response.content) # 写入 # file_handle.write('\n') df= pd....
Python3爬虫爬取某网站美女图片
2015-07-07 09:00

隔壁大虾的博客这个网站和很多网站一样，对爬虫有限制，他的限制方式应该是1.请求过快的是机器人，封！2.不是浏览器发来的请求，封！所以我加了休眠，并伪装成了浏览器。代码如下： from urllib.request import urlopen import ...
没有解决我的问题, 去提问

悬赏问题

¥88 找成都本地经验丰富懂小程序开发的技术大咖
¥15 如何处理复杂数据表格的除法运算
¥15 如何用stc8h1k08的片子做485数据透传的功能？(关键词-串口)
¥15 有兄弟姐妹会用word插图功能制作类似citespace的图片吗？
¥200 uniapp长期运行卡死问题解决
¥15 请教：如何用postman调用本地虚拟机区块链接上的合约？
¥15 为什么使用javacv转封装rtsp为rtmp时出现如下问题：[h264 @ 000000004faf7500]no frame？
¥15 乘性高斯噪声在深度学习网络中的应用
¥15 关于docker部署flink集成hadoop的yarn，请教个问题 flink启动yarn-session.sh连不上hadoop，这个整了好几天一直不行，求帮忙看一下怎么解决
¥15 深度学习根据CNN网络模型，搭建BP模型并训练MNIST数据集