实现网络爬虫与搜索引擎技术都需要配备什么样的资源？

公司准备做一个关于搜索引擎方面的东西，但是本人对这块不是熟悉，都需要配备什么样的资源，比如人才，软件(开源或商业的，开源优先)，硬件，网络等，请大家不吝赐教。
大致的要求是能有一个爬虫去一些网站爬数据抓取回来，然后存储在本地。在用搜素技术搜索这些数据和分析这个这些对这些数据进行加工处理，方便用户使用。我们只是要求搜索某一行业的数据，而不是像百度这样可以搜索全网的数据。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
ChatGPTᴼᴾᴱᴺᴬᴵ 2023-02-26 11:32
关注
该回答引用ChatGPT

实现网络爬虫和搜索引擎技术需要以下资源：

人才：需要拥有一定的编程和算法知识，熟悉网络爬虫、搜索引擎技术和数据处理。至少需要有一位开发人员和一位数据分析师，可以根据项目的规模适当增加人力资源。

软件：需要使用一些开源或商业的软件来实现网络爬虫和搜索引擎。例如，Python中的Beautiful Soup或Scrapy框架，Java中的Jsoup框架，或者商业爬虫软件，如Octoparse和WebHarvy。搜索引擎可以使用开源搜索引擎，如Elasticsearch和Solr，或者商业搜索引擎，如Amazon CloudSearch和Algolia。

硬件：需要一定的硬件资源来处理大量数据。根据项目的规模，需要考虑是否需要使用多台服务器进行分布式处理。可以使用云服务提供商，如Amazon Web Services和Microsoft Azure等，来租赁虚拟机和存储空间。

网络：需要一个高速稳定的网络来实现数据传输和访问。可以使用云服务提供商的网络服务，如Amazon CloudFront和Azure Content Delivery Network，来提高访问速度和可靠性。

除此之外，还需要考虑数据隐私和安全，合法的数据采集和存储，以及数据可视化和用户界面等方面。

该回答引用NewBing

你好，这是Bing。很高兴能为你提供帮助。😊

实现网络爬虫与搜索引擎技术都需要配备什么样的资源，这个问题没有一个确定的答案，因为不同的需求和规模可能需要不同的资源。但是，一般来说，你可能需要以下几方面的资源：

人才：你需要有一定的编程能力和网络知识，能够使用Python或其他语言编写爬虫程序，并且能够解析网页数据和构建索引。你也需要有一些基本的算法和数据结构的知识，以及对搜索引擎原理和优化方法有一定的了解。
软件：你可以使用一些开源或商业的软件来辅助你的爬虫和搜索引擎开发。例如，urllib、requests、re、lxml、bs4、json等Python模块或库可以帮助你下载和解析网页数据①；Scrapy、Selenium等框架可以帮助你编写更高效和灵活的爬虫程序；Elasticsearch、Solr等工具可以帮助你建立和管理索引库；Lucene、Whoosh等库可以帮助你实现搜索引擎核心功能。
硬件：你需要有足够的存储空间和计算能力来存储和处理网页数据。根据你所要爬取的网站数量和规模，以及所要提供的搜索服务质量，你可能需要不同数量和配置的服务器或云服务。
网络：你需要有稳定和快速的网络连接来访问目标网站，并且遵守相关法律法规和道德规范。如果目标网站有反爬虫机制或限制访问频率，你可能需要使用代理服务器或IP池来绕过这些限制。

以上是我根据网络搜索结果①②③给出的一个大致的回答，具体情况还要根据你自己公司项目需求进行分析。

源: 与必应的对话， 2023/2/26

(1) 做Python网络爬虫需要掌握哪些核心技术？ - 知乎. https://zhuanlan.zhihu.com/p/165540991 访问时间 2023/2/26.

(2) 搜索引擎原理：网络爬虫 - 知乎. https://zhuanlan.zhihu.com/p/162061429 访问时间 2023/2/26.

(3) 详解4种类型的爬虫技术 - 知乎. https://zhuanlan.zhihu.com/p/366455310 访问时间 2023/2/26.
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

实现网络爬虫与搜索引擎技术都需要配备什么样的资源？搜索引擎
2014-07-20 19:54

回答 6 已采纳我以前做过信息检索，写过爬虫解析过网页，可能可以给您一些提示。首先流程正如@y_x 所说，各个阶段需要用到的工具就如@mayufenga1 所说。 1、网络爬虫。这个有许多开源工具，spider
请教关于 nginx限制搜索引擎爬虫IP白名单 nginx 搜索引擎爬虫
2018-06-13 14:38

回答 2 已采纳大的搜索引擎，它们的服务器太多了，靠ip限制不过来，最好是useragent判断参考：https://www.jb51.net/article/52569.htm
爬虫与反爬虫
2018-01-29 12:57

中琦2513的博客爬虫反爬虫技术现状为python平反无法绕开的误伤率前端工程师的逆袭误伤，还是误伤爬虫反爬虫套路现状不要回应进化法律途径搞事情，立Flag
想自己做一个搜索引擎，可行吗？ android java 爬虫
2022-03-29 14:55

回答 2 已采纳做自己的搜索引擎是可行的，但就成本而言，远高于使用别的搜索引擎，虽然这些搜索引擎总是有广告，但还是可以找到理想的内容。除非自己需要一个绝对特殊领域的专用引擎，那么就是可以考虑了。做搜索引擎，如果内容条
用Request库向百度搜索引擎提交关键词失败？ python 搜索引擎
2020-02-25 01:09

回答 1 已采纳请求头和url里面少了东西，所以报错了 ``` # -*- coding:utf-8 -*- import requests kv = {'wd':'python'} ##请求头里面
爬虫如何判断什么时候直接解析，什么时候需要抓包之类的操作？ python 爬虫
2022-06-21 13:58

回答 1 已采纳打开网页源代码，如果数据能加载出来，则不需要抓包如果数据信息加载不出来，则需要查看network，看看调用的接口里面是否返回如果在调用的接口里面查询不到数据，则需要抓包查看
爬虫？反爬虫！
2018-09-13 16:38

miniAlisa的博客爬虫与反爬虫，这相爱相杀的一对，在现在你会爬虫是不够的，你还得会反爬虫。为 Python 平反首先是爬虫，爬虫教程你到处都可以搜的到，大部分是 Python 写的。我曾经在一篇文章提到过：用 Python 写的爬虫是最...
网络爬虫，下载好了chromedriver为什么会报错？ python 有问必答
2021-07-27 13:12

回答 1 已采纳有用的话点一下采纳，要大写的Chrom()
请教各位大拿，现在流行的网络爬虫有什么用 python 爬虫
2018-12-10 10:08

回答 5 已采纳 (1)爬虫有什么用，主要有两个，一个是抓取数据，下载文件；一个是机器人，模拟人对网站操作。前者你已经基本知道了，后者，比如12306刷票，水军刷评论，操作一些没有提供api接口的网站，比如查询快递
网站seo会被百度搜索到吗？搜索引擎爬虫
2022-03-29 14:48

回答 1 已采纳现在有上网站有还不seo的嘛，你想快点被收录需要去百度资源平台，主动提交网站https://ziyuan.baidu.com/
爬虫需谨慎，你不知道的爬虫与反爬虫套路！
2018-08-27 12:37

weixin_39928244的博客爬虫与反爬虫，是一个很不阳光的行业。这里说的不阳光，有两个含义。第一是，这个行业是隐藏在地下的，一般很少被曝光出来。很多公司对外都不会宣称自己有爬虫团队，甚至隐瞒自己有反爬虫团队的事实。这可能是出于...
爬虫为什么遇到了400报错？bad request,，怎么办？ python 爬虫
2022-09-21 15:18

回答 2 已采纳被反爬了，headers里加上cookie试试，有帮助的话采纳一下哦！
爬虫需谨慎!那些你不知道的爬虫反爬虫套路,学起来!
2019-05-29 11:05

pengjunlee的博客二、爬虫反爬虫技术现状 1、为python平反 2、无法绕开的误伤率 3、前端工程师的逆袭 4、误伤，还是误伤三、爬虫反爬虫套路现状 1、不要回应 2、进化 3、法律途径 4、搞事情，立Flag 四、爬虫反爬虫的未来...
[转]爬虫的现状和反爬虫
2019-07-29 08:56

I,Pencil的博客转载一线爬虫工程师写的文章,对爬虫和反爬现状分析的很到位,共诸君参考! ----------------------------------分割线--------------------------------------------- 前言就不写了.写给准备从事该行业的人看的,你们多...
没有解决我的问题, 去提问

悬赏问题

¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！
¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像，如何解决？

实现网络爬虫与搜索引擎技术都需要配备什么样的资源？

1条回答 默认 最新

悬赏问题

1条回答默认最新