iteye_2327 2012-07-08 19:35
浏览 340
已采纳

开发自己的搜索引擎

大牛们,小弟想开发一个自己的像google一样的搜索引擎,看了一本书“开发自己的搜索引擎---Lucene+Heritrix(第2版)”不知作为入门如何?还有没有其他推荐?万谢!

  • 写回答

3条回答 默认 最新

  • gguava 2012-07-09 00:46
    关注

    首先嘛 先搞清楚搜索引擎的架构
    爬虫方面 比如你是用python的 看下urllib httplib
    分词方面 就看Lucene 其实分词也蛮简单的 关键是词库。机器怎么发现新词

    上面2个方面就是最基本的了
    之后就是SERP页 SE怎么判断某个站的排名?
    1展示率(符合什么条件可以上top10)
    2点击率
    3跳出率

    链接分析算法 相关性分析算法 主题偏移算法等等 这些SE排名算法 一堆上吧

    现在搜狗好像开始找自然语言处理工程师了,以后自然语言处理应该会是个趋势吧
    当然还有SE如何判断黑帽

    回归你的问题,我觉得你先锁定SE的里面一个小分支,先熟悉其中一块吧

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

悬赏问题

  • ¥15 Matlab怎么求解含参的二重积分?
  • ¥15 苹果手机突然连不上wifi了?
  • ¥15 cgictest.cgi文件无法访问
  • ¥20 删除和修改功能无法调用
  • ¥15 kafka topic 所有分副本数修改
  • ¥15 小程序中fit格式等运动数据文件怎样实现可视化?(包含心率信息))
  • ¥15 如何利用mmdetection3d中的get_flops.py文件计算fcos3d方法的flops?
  • ¥40 串口调试助手打开串口后,keil5的代码就停止了
  • ¥15 电脑最近经常蓝屏,求大家看看哪的问题
  • ¥60 高价有偿求java辅导。工程量较大,价格你定,联系确定辅导后将采纳你的答案。希望能给出完整详细代码,并能解释回答我关于代码的疑问疑问,代码要求如下,联系我会发文档