实现网络爬虫与搜索引擎技术都需要配备什么样的资源？

公司准备做一个关于搜索引擎方面的东西，但是本人对这块不是熟悉，都需要配备什么样的资源，比如人才，软件(开源或商业的，开源优先)，硬件，网络等，请大家不吝赐教。
大致的要求是能有一个爬虫去一些网站爬数据抓取回来，然后存储在本地。在用搜素技术搜索这些数据和分析这个这些对这些数据进行加工处理，方便用户使用。我们只是要求搜索某一行业的数据，而不是像百度这样可以搜索全网的数据。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
hjhjw1991 2014-07-21 16:00
关注
我以前做过信息检索，写过爬虫解析过网页，可能可以给您一些提示。
首先流程正如@y_x 所说，各个阶段需要用到的工具就如@mayufenga1 所说。
1、网络爬虫。这个有许多开源工具，spiderman，crawler，solar，nutch也可以用，轻量的话wget也可以用。基本上属于配置一些参数就可以开始抓取了。
2、索引工具。这个也有很多开源工具，著名的Lucene是其中之一。
3、索引完之后就有完整的数据库了，这个时候可以使用自己的工具对业务数据进行解析和进一步操作，爬虫的功能就完成了。
4、需要注意的是定期更新数据，因为网页链接是会经常更新的。
5、为了能更好地工作，linux系统是必须的。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(5条)

报告相同问题？

关注问题

实现网络爬虫与搜索引擎技术都需要配备什么样的资源？搜索引擎
2014-07-20 19:54

回答 6 已采纳我以前做过信息检索，写过爬虫解析过网页，可能可以给您一些提示。首先流程正如@y_x 所说，各个阶段需要用到的工具就如@mayufenga1 所说。 1、网络爬虫。这个有许多开源工具，spider
请教关于 nginx限制搜索引擎爬虫IP白名单 nginx 搜索引擎爬虫
2018-06-13 14:38

回答 2 已采纳大的搜索引擎，它们的服务器太多了，靠ip限制不过来，最好是useragent判断参考：https://www.jb51.net/article/52569.htm
爬虫与反爬虫
2018-01-29 12:57

中琦2513的博客爬虫反爬虫技术现状为python平反无法绕开的误伤率前端工程师的逆袭误伤，还是误伤爬虫反爬虫套路现状不要回应进化法律途径搞事情，立Flag
想自己做一个搜索引擎，可行吗？ android java 爬虫
2022-03-29 14:55

回答 2 已采纳做自己的搜索引擎是可行的，但就成本而言，远高于使用别的搜索引擎，虽然这些搜索引擎总是有广告，但还是可以找到理想的内容。除非自己需要一个绝对特殊领域的专用引擎，那么就是可以考虑了。做搜索引擎，如果内容条
用Request库向百度搜索引擎提交关键词失败？ python 搜索引擎
2020-02-25 01:09

回答 1 已采纳请求头和url里面少了东西，所以报错了 ``` # -*- coding:utf-8 -*- import requests kv = {'wd':'python'} ##请求头里面
爬虫如何判断什么时候直接解析，什么时候需要抓包之类的操作？ python 爬虫
2022-06-21 13:58

回答 1 已采纳打开网页源代码，如果数据能加载出来，则不需要抓包如果数据信息加载不出来，则需要查看network，看看调用的接口里面是否返回如果在调用的接口里面查询不到数据，则需要抓包查看
爬虫？反爬虫！
2018-09-13 16:38

miniAlisa的博客爬虫与反爬虫，这相爱相杀的一对，在现在你会爬虫是不够的，你还得会反爬虫。为 Python 平反首先是爬虫，爬虫教程你到处都可以搜的到，大部分是 Python 写的。我曾经在一篇文章提到过：用 Python 写的爬虫是最...
网络爬虫，下载好了chromedriver为什么会报错？ python 有问必答
2021-07-27 13:12

回答 1 已采纳有用的话点一下采纳，要大写的Chrom()
请教各位大拿，现在流行的网络爬虫有什么用 python 爬虫
2018-12-10 10:08

回答 5 已采纳 (1)爬虫有什么用，主要有两个，一个是抓取数据，下载文件；一个是机器人，模拟人对网站操作。前者你已经基本知道了，后者，比如12306刷票，水军刷评论，操作一些没有提供api接口的网站，比如查询快递
网站seo会被百度搜索到吗？搜索引擎爬虫
2022-03-29 14:48

回答 1 已采纳现在有上网站有还不seo的嘛，你想快点被收录需要去百度资源平台，主动提交网站https://ziyuan.baidu.com/
爬虫需谨慎，你不知道的爬虫与反爬虫套路！
2018-08-27 12:37

weixin_39928244的博客爬虫与反爬虫，是一个很不阳光的行业。这里说的不阳光，有两个含义。第一是，这个行业是隐藏在地下的，一般很少被曝光出来。很多公司对外都不会宣称自己有爬虫团队，甚至隐瞒自己有反爬虫团队的事实。这可能是出于...
爬虫为什么遇到了400报错？bad request,，怎么办？ python 爬虫
2022-09-21 15:18

回答 2 已采纳被反爬了，headers里加上cookie试试，有帮助的话采纳一下哦！
爬虫需谨慎!那些你不知道的爬虫反爬虫套路,学起来!
2019-05-29 11:05

pengjunlee的博客二、爬虫反爬虫技术现状 1、为python平反 2、无法绕开的误伤率 3、前端工程师的逆袭 4、误伤，还是误伤三、爬虫反爬虫套路现状 1、不要回应 2、进化 3、法律途径 4、搞事情，立Flag 四、爬虫反爬虫的未来...
[转]爬虫的现状和反爬虫
2019-07-29 08:56

I,Pencil的博客转载一线爬虫工程师写的文章,对爬虫和反爬现状分析的很到位,共诸君参考! ----------------------------------分割线--------------------------------------------- 前言就不写了.写给准备从事该行业的人看的,你们多...
没有解决我的问题, 去提问

悬赏问题

¥15 Stata 面板数据模型选择
¥20 idea运行测试代码报错问题
¥15 网络监控：网络故障告警通知
¥15 django项目运行报编码错误
¥15 请问这个是什么意思？
¥15 STM32驱动继电器
¥15 Windows server update services
¥15 关于#c语言#的问题：我现在在做一个墨水屏设计，2.9英寸的小屏怎么换4.2英寸大屏
¥15 模糊pid与pid仿真结果几乎一样
¥15 java的GUI的运用

实现网络爬虫与搜索引擎技术都需要配备什么样的资源？

6条回答 默认 最新

悬赏问题

6条回答默认最新