2 jacebu jacebu 于 2016.03.09 19:29 提问

搜索引擎的查询向量的权重为什么只考虑tf不考虑df

搜索引擎的查询向量的权重为什么只考虑tf不考虑df,谢谢各位

1个回答

devmiao
devmiao   Ds   Rxr 2016.03.10 03:22
Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
使用向量空间模型(df-idf)计算搜索文档与查询词的相关性
如果要实现一个搜索引擎,当搜索到与用户查询相关的文档后,需要按照搜索文档与查询词相关性的先后顺序显示文章标题与概要,所以需要一种办法计算用户查询和搜索文档的相关性,然后按照相关性由高到低进行排序。
感知机中的损失函数中的分母为什么可以不考虑
权重w是一个向量,||w||的大小不会影响向量的方向,确定超平面是通过确定法向量w和截距b来确定的,而||w||的大小对权重w的方向没有任何影响,所以可以固定||w||为1或者不考虑。
感知机中损失函数1/||w||为什么可以不考虑(或直接忽略)?
以下为个人理解,仅供参考交流。 1、1/||w||不影响-y(w,x+b)正负的判断,即不影响学习算法的中间过程。因为感知机学习算法是误分类驱动的,这里需要注意的是所谓的“误分类驱动”指的是我们只需要判断-y(wx+b)的正负来判断分类的正确与否,而1/||w||并不影响正负值的判断。所以1/||w||对感知机学习算法的中间过程可有可无; 2、1/||w||不影响感知机学习算法的最终结果。因为
关键词权重计算算法 - TF-IDF
TF-IDF(term frequency–inverse document frequency)算法介绍
信息检索之文档评分、词项权重计算及向量空间模型
1、主要内容:     在文档规模很大的情况下,满足布尔查询的结果文档数量可能非常多,往往会大大超过用户能够浏览的文档的数目。需要对搜索出来的文档进行评分和排序。     ①、参数化索引及域索引的概念;目的:1、可以通过元数据(文档的作者、标题、出版日期等)来对文档进行索引和检索;2、上述索引能够提供一个简单的文档评分;     ②、词项字在文档中的权重的概念,并通过期出现的统计信息进行权重
TF-IDF词项权重计算
一、TF-IDF词项频率: df:term frequency。 term在文档中出现的频率.tf越大,词元越重要. 文档频率: tf:document frequecy。有多少文档包含此term,df越大词元越不重要. 词元权重计算公式: tf-idf=tf(t,d)*log(N/df(t)) W(t,d):the weight of the term in document d tf
每日十道面试题(三)
1. 接口是否可以继承接口?抽象类是否可以实现接口?抽象类是否可以继承实体类?接口可以继承接口,抽象类可以实现接口,抽象类可以继承实体类,但是前提是实体类必须有明确的构造函数。2. 启动一个线程是用run()还是start()?启动一个线程调用的是start方法,使线程所代表的虚拟处理机处于可运行状态,这意味着它可以由jvm调度并执行,这并不意味着会立即执行,还需要线程调度,run方法可以产生必须退
影响搜索结果排序之:六个维度
百度的排序算法维度: 用户输入关键词进行检索,百度搜索引擎在排序环节要做两方面的事情,第一是把相关的网页从索引库中提取出来,第二是把提取出来的网页按照不同维度的得分进行综合排序。“不同维度”包括: 1,相关性:网页内容与用户检索需求的匹配程度,比如网页包含的用户检查关键词的个数,以及这些关键词出现的位置;外部网页指向该页面所用的锚文本等 2,权威性:用户喜欢有一定权威性网站提供的内容,相
搜索引擎的检索模型-查询与文档的相关度计算
1. 检索模型概述       搜索结果排序时搜索引擎最核心的部分,很大程度度上决定了搜索引擎的质量好坏及用户满意度。实际搜索结果排序的因子有很多,但最主要的两个因素是用户查询和网页内容的相关度,以及网页链接情况。这里我们主要总结网页内容和用户查询相关的内容。        判断网页内容是否与用户査询相关,这依赖于搜索引擎所来用的检索模型。检索模型是搜索引擎的理论基础,为量化相关性提供了一种数
用TFIDF给特征词赋权值
0  背景             在上一篇的用CHI检验的文章中我们已经获得了特征词,这些特征词在某一篇文章中出现的频率是不一样的,也可以说词与词的重要性是不一样的。为了标示特征词语的重要程度,就必须赋权重。在本篇文章中,我们使用的方法是TFIDF。 1   VSM向量空间模型               哎?不是讲TFIDF吗,怎么会有VSM向量空间模型呢。是这样,在经过CH