在文本相似性检测中,如何确定相似的阈值?
在对文档进行simhash之后, 对汉明距离小于4的文档进行相似度计算,这里的阈值怎么确定呢?
在文本相似性检测中,如何确定相似的阈值?
- 写回答
- 好问题 0 提建议
- 关注问题
- 邀请回答
-
1条回答 默认 最新
threenewbee 2017-10-23 10:38关注根据经验设定,设置大了,容忍度提高,造成误判,设置小了,造成漏判,所以你应该反复尝试,看结果是否是最优的。
解决 无用评论 打赏 举报
在文本相似性检测中,如何确定相似的阈值?
在对文档进行simhash之后, 对汉明距离小于4的文档进行相似度计算,这里的阈值怎么确定呢?
根据经验设定,设置大了,容忍度提高,造成误判,设置小了,造成漏判,所以你应该反复尝试,看结果是否是最优的。