gq2010 2014-07-20 11:58 采纳率: 0%
浏览 832

实现网络爬虫与搜索引擎技术都需要配备什么样的资源?

公司准备做一个关于搜索引擎方面的东西,但是本人对这块不是熟悉,都需要配备什么样的资源,比如人才,软件(开源或商业的,开源优先),硬件,网络等,请大家不吝赐教。
大致的要求是能有一个爬虫去一些网站爬数据抓取回来,然后存储在本地。在用搜素技术搜索这些数据和分析这个这些对这些数据进行加工处理,方便用户使用。我们只是要求搜索某一行业的数据,而不是像百度这样可以搜索全网的数据。

  • 写回答

1条回答 默认 最新

  • ChatGPTᴼᴾᴱᴺᴬᴵ 2023-02-26 11:32
    关注

    该回答引用ChatGPT

    实现网络爬虫和搜索引擎技术需要以下资源:

    • 人才:需要拥有一定的编程和算法知识,熟悉网络爬虫、搜索引擎技术和数据处理。至少需要有一位开发人员和一位数据分析师,可以根据项目的规模适当增加人力资源。
    • 软件:需要使用一些开源或商业的软件来实现网络爬虫和搜索引擎。例如,Python中的Beautiful Soup或Scrapy框架,Java中的Jsoup框架,或者商业爬虫软件,如Octoparse和WebHarvy。搜索引擎可以使用开源搜索引擎,如Elasticsearch和Solr,或者商业搜索引擎,如Amazon CloudSearch和Algolia。
    • 硬件:需要一定的硬件资源来处理大量数据。根据项目的规模,需要考虑是否需要使用多台服务器进行分布式处理。可以使用云服务提供商,如Amazon Web Services和Microsoft Azure等,来租赁虚拟机和存储空间。
    • 网络:需要一个高速稳定的网络来实现数据传输和访问。可以使用云服务提供商的网络服务,如Amazon CloudFront和Azure Content Delivery Network,来提高访问速度和可靠性。

    除此之外,还需要考虑数据隐私和安全,合法的数据采集和存储,以及数据可视化和用户界面等方面。


    该回答引用NewBing


    你好,这是Bing。很高兴能为你提供帮助。😊


    实现网络爬虫与搜索引擎技术都需要配备什么样的资源,这个问题没有一个确定的答案,因为不同的需求和规模可能需要不同的资源。但是,一般来说,你可能需要以下几方面的资源:

    • 人才:你需要有一定的编程能力和网络知识,能够使用Python或其他语言编写爬虫程序,并且能够解析网页数据和构建索引。你也需要有一些基本的算法和数据结构的知识,以及对搜索引擎原理和优化方法有一定的了解。
    • 软件:你可以使用一些开源或商业的软件来辅助你的爬虫和搜索引擎开发。例如,urllib、requests、re、lxml、bs4、json等Python模块或库可以帮助你下载和解析网页数据①;Scrapy、Selenium等框架可以帮助你编写更高效和灵活的爬虫程序;Elasticsearch、Solr等工具可以帮助你建立和管理索引库;Lucene、Whoosh等库可以帮助你实现搜索引擎核心功能。
    • 硬件:你需要有足够的存储空间和计算能力来存储和处理网页数据。根据你所要爬取的网站数量和规模,以及所要提供的搜索服务质量,你可能需要不同数量和配置的服务器或云服务。
    • 网络:你需要有稳定和快速的网络连接来访问目标网站,并且遵守相关法律法规和道德规范。如果目标网站有反爬虫机制或限制访问频率,你可能需要使用代理服务器或IP池来绕过这些限制。

    以上是我根据网络搜索结果①②③给出的一个大致的回答,具体情况还要根据你自己公司项目需求进行分析。


    源: 与必应的对话, 2023/2/26

    评论

报告相同问题?

悬赏问题

  • ¥100 高价邀请复制 域天d8联网狗
  • ¥15 本题的答案是不是有问题
  • ¥15 关于#r语言#的问题:(svydesign)为什么在一个大的数据集中抽取了一个小数据集
  • ¥15 C++使用Gunplot
  • ¥15 这个电路是如何实现路灯控制器的,原理是什么,怎么求解灯亮起后熄灭的时间如图?
  • ¥15 matlab数字图像处理频率域滤波
  • ¥15 在abaqus做了二维正交切削模型,给刀具添加了超声振动条件后输出切削力为什么比普通切削增大这么多
  • ¥15 ELGamal和paillier计算效率谁快?
  • ¥15 蓝桥杯单片机第十三届第一场,整点继电器吸合,5s后断开出现了问题
  • ¥15 file converter 转换格式失败 报错 Error marking filters as finished,如何解决?