实现网络爬虫与搜索引擎技术都需要配备什么样的资源？

公司准备做一个关于搜索引擎方面的东西，但是本人对这块不是熟悉，都需要配备什么样的资源，比如人才，软件(开源或商业的，开源优先)，硬件，网络等，请大家不吝赐教。
大致的要求是能有一个爬虫去一些网站爬数据抓取回来，然后存储在本地。在用搜素技术搜索这些数据和分析这个这些对这些数据进行加工处理，方便用户使用。我们只是要求搜索某一行业的数据，而不是像百度这样可以搜索全网的数据。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
hjhjw1991 2014-07-21 16:00
关注
我以前做过信息检索，写过爬虫解析过网页，可能可以给您一些提示。
首先流程正如@y_x 所说，各个阶段需要用到的工具就如@mayufenga1 所说。
1、网络爬虫。这个有许多开源工具，spiderman，crawler，solar，nutch也可以用，轻量的话wget也可以用。基本上属于配置一些参数就可以开始抓取了。
2、索引工具。这个也有很多开源工具，著名的Lucene是其中之一。
3、索引完之后就有完整的数据库了，这个时候可以使用自己的工具对业务数据进行解析和进一步操作，爬虫的功能就完成了。
4、需要注意的是定期更新数据，因为网页链接是会经常更新的。
5、为了能更好地工作，linux系统是必须的。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(5条)

报告相同问题？

关注问题

【网络安全就业方向】网络安全专业的学生毕业后可以从事什么样的工作
2025-12-12 15:41

鸡腿爱学习的博客我国的人才更多的属于旁门左道（很多白帽子可能会不服气），因此在未来的人才培养和建设上，需要调整结构，鼓励更多的人去做“正向”的、结合“业务”与“数据”、“自动化”的“体系、建设”，才能解人才之渴，真正...
13、互联网搜索与商业发展的变革之旅
2025-10-20 07:15

落叶知秋263的博客文章讲述了蒂姆·伯纳斯-李发明万维网、杰夫·贝索斯创立亚马逊、拉里·佩奇与谢尔盖·布林创建谷歌等里程碑事件，并探讨了Facebook引领的社交网络兴起、移动互联网的普及以及随之而来的网络安全与隐私挑战。...
基于 C++的新闻搜索引擎设计与实现的详细项目实例
2025-10-08 17:18

nantangyuxi的博客本文介绍了一个基于C++的新闻搜索引擎设计与实现项目。该项目主要包含以下核心内容：系统架构采用模块化设计，包括新闻采集、预处理、倒排索引构建、检索排序、存储缓存等模块支持高并发访问和分布式部署关键...
爬虫与反爬虫
2018-01-29 12:57

中琦2513的博客爬虫反爬虫技术现状为python平反无法绕开的误伤率前端工程师的逆袭误伤，还是误伤爬虫反爬虫套路现状不要回应进化法律途径搞事情，立Flag
基于java的新闻搜索引擎设计与实现的详细项目实例
2025-09-17 18:30

nantangyuxi的博客本文介绍了一个基于Java的新闻搜索引擎系统设计与实现方案。该系统采用模块化架构，包含数据采集、内容清洗、分词索引、智能检索、个性化推荐等核心功能模块。系统采用SpringBoot框架开发，结合MySQL数据库和Elastic...
2024最新版JavaScript逆向爬虫教程-------基础篇之深入JavaScript运行原理以及内存管理
2024-04-24 06:14

棒棒编程修炼场的博客目录一、JavaScript运行原理 1.1 前端需要掌握的三大技术 1.2 为什么要学习JavaScript 1.3 浏览器的工作原理 1.4 浏览器的内核 1.5 浏览器渲染过程 1.6 认识JavaScript引擎 1.7 V8引擎以及JavaScript的执行过程 1.8...
爬虫？反爬虫！
2018-09-13 16:38

miniAlisa的博客爬虫与反爬虫，这相爱相杀的一对，在现在你会爬虫是不够的，你还得会反爬虫。为 Python 平反首先是爬虫，爬虫教程你到处都可以搜的到，大部分是 Python 写的。我曾经在一篇文章提到过：用 Python 写的爬虫是最...
爬虫需谨慎，你不知道的爬虫与反爬虫套路！
2018-08-27 12:37

weixin_39928244的博客爬虫与反爬虫，是一个很不阳光的行业。这里说的不阳光，有两个含义。第一是，这个行业是隐藏在地下的，一般很少被曝光出来。很多公司对外都不会宣称自己有爬虫团队，甚至隐瞒自己有反爬虫团队的事实。这可能是出于...
[转]爬虫的现状和反爬虫
2019-07-29 08:56

I,Pencil的博客转载一线爬虫工程师写的文章,对爬虫和反爬现状分析的很到位,共诸君参考! ----------------------------------分割线--------------------------------------------- 前言就不写了.写给准备从事该行业的人看的,你们多...
.net 爬虫技术
2019-04-03 17:39

BUBsky的博客从搜索引擎开始，爬虫应该就出现了，爬的对象当然也就是网页URL，在很长一段时间内，爬虫所做的事情就是分析URL、下载WebServer返回的HTML、分析HTML内容、构建HTTP请求的模拟、在爬虫过程中存储有用的信息等等，而...
没有解决我的问题, 去提问

实现网络爬虫与搜索引擎技术都需要配备什么样的资源？

6条回答 默认 最新

6条回答默认最新