gq2010 2014-07-20 11:58 采纳率: 0%
浏览 832

实现网络爬虫与搜索引擎技术都需要配备什么样的资源?

公司准备做一个关于搜索引擎方面的东西,但是本人对这块不是熟悉,都需要配备什么样的资源,比如人才,软件(开源或商业的,开源优先),硬件,网络等,请大家不吝赐教。
大致的要求是能有一个爬虫去一些网站爬数据抓取回来,然后存储在本地。在用搜素技术搜索这些数据和分析这个这些对这些数据进行加工处理,方便用户使用。我们只是要求搜索某一行业的数据,而不是像百度这样可以搜索全网的数据。

  • 写回答

1条回答 默认 最新

  • ChatGPTᴼᴾᴱᴺᴬᴵ 2023-02-26 11:32
    关注

    该回答引用ChatGPT

    实现网络爬虫和搜索引擎技术需要以下资源:

    • 人才:需要拥有一定的编程和算法知识,熟悉网络爬虫、搜索引擎技术和数据处理。至少需要有一位开发人员和一位数据分析师,可以根据项目的规模适当增加人力资源。
    • 软件:需要使用一些开源或商业的软件来实现网络爬虫和搜索引擎。例如,Python中的Beautiful Soup或Scrapy框架,Java中的Jsoup框架,或者商业爬虫软件,如Octoparse和WebHarvy。搜索引擎可以使用开源搜索引擎,如Elasticsearch和Solr,或者商业搜索引擎,如Amazon CloudSearch和Algolia。
    • 硬件:需要一定的硬件资源来处理大量数据。根据项目的规模,需要考虑是否需要使用多台服务器进行分布式处理。可以使用云服务提供商,如Amazon Web Services和Microsoft Azure等,来租赁虚拟机和存储空间。
    • 网络:需要一个高速稳定的网络来实现数据传输和访问。可以使用云服务提供商的网络服务,如Amazon CloudFront和Azure Content Delivery Network,来提高访问速度和可靠性。

    除此之外,还需要考虑数据隐私和安全,合法的数据采集和存储,以及数据可视化和用户界面等方面。


    该回答引用NewBing


    你好,这是Bing。很高兴能为你提供帮助。😊


    实现网络爬虫与搜索引擎技术都需要配备什么样的资源,这个问题没有一个确定的答案,因为不同的需求和规模可能需要不同的资源。但是,一般来说,你可能需要以下几方面的资源:

    • 人才:你需要有一定的编程能力和网络知识,能够使用Python或其他语言编写爬虫程序,并且能够解析网页数据和构建索引。你也需要有一些基本的算法和数据结构的知识,以及对搜索引擎原理和优化方法有一定的了解。
    • 软件:你可以使用一些开源或商业的软件来辅助你的爬虫和搜索引擎开发。例如,urllib、requests、re、lxml、bs4、json等Python模块或库可以帮助你下载和解析网页数据①;Scrapy、Selenium等框架可以帮助你编写更高效和灵活的爬虫程序;Elasticsearch、Solr等工具可以帮助你建立和管理索引库;Lucene、Whoosh等库可以帮助你实现搜索引擎核心功能。
    • 硬件:你需要有足够的存储空间和计算能力来存储和处理网页数据。根据你所要爬取的网站数量和规模,以及所要提供的搜索服务质量,你可能需要不同数量和配置的服务器或云服务。
    • 网络:你需要有稳定和快速的网络连接来访问目标网站,并且遵守相关法律法规和道德规范。如果目标网站有反爬虫机制或限制访问频率,你可能需要使用代理服务器或IP池来绕过这些限制。

    以上是我根据网络搜索结果①②③给出的一个大致的回答,具体情况还要根据你自己公司项目需求进行分析。


    源: 与必应的对话, 2023/2/26

    评论

报告相同问题?

悬赏问题

  • ¥60 版本过低apk如何修改可以兼容新的安卓系统
  • ¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
  • ¥50 有数据,怎么建立模型求影响全要素生产率的因素
  • ¥50 有数据,怎么用matlab求全要素生产率
  • ¥15 TI的insta-spin例程
  • ¥15 完成下列问题完成下列问题
  • ¥15 C#算法问题, 不知道怎么处理这个数据的转换
  • ¥15 YoloV5 第三方库的版本对照问题
  • ¥15 请完成下列相关问题!
  • ¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像,如何解决?