handao12345 2017-10-23 04:32 采纳率: 0%
浏览 6759

在文本相似性检测中,如何确定相似的阈值?

在文本相似性检测中,如何确定相似的阈值?
在对文档进行simhash之后, 对汉明距离小于4的文档进行相似度计算,这里的阈值怎么确定呢?

  • 写回答

1条回答 默认 最新

  • threenewbee 2017-10-23 10:38
    关注

    根据经验设定,设置大了,容忍度提高,造成误判,设置小了,造成漏判,所以你应该反复尝试,看结果是否是最优的。

    评论

报告相同问题?