请问各路大神,我刚开始接触NLP,老师让我们自学人类语言的相似性度量
我研究了naive的不加权的余弦相似度和Jaccard相似度
老师要求我们研究他们的算法,由于我算法太渣,知道运算原理但是总结不出算法
请哪位大神能够指点一下,告诉我这两个算法的伪代码怎么弄,谢啦
请问各路大神,我刚开始接触NLP,老师让我们自学人类语言的相似性度量
我研究了naive的不加权的余弦相似度和Jaccard相似度
老师要求我们研究他们的算法,由于我算法太渣,知道运算原理但是总结不出算法
请哪位大神能够指点一下,告诉我这两个算法的伪代码怎么弄,谢啦
余弦相似度的伪代码就是原来的公式,在真正实现的时候,A和B都是按照向量存储的(不是数组,是线性代数库中的向量),可以直接加,减,点积,取模
Jaccard同理,在实现时,A和B就是集合存储的,直接按照公式计算就行