sam2_huang 2009-07-10 19:58
浏览 595
已采纳

对大文本进行分词,如何统计正确率?

有没什么方法,谢谢!
[b]问题补充:[/b]
比如: 纺织品和服装,切分成:纺织品/和服/装。有2个词,1个词切对,就是50%正确率。
[b]问题补充:[/b]
我说的大文本,意思是不能手工统计。
[b]问题补充:[/b]
是的,我主要是需要一个方法,对分词切分的准确性做判断。比如有的分词系统给出说准确率95%什么的,小文本或者说小数据量可以手工统计,但小文本或者小数据量的统计结论肯定是不够正确的。我需要知道大文本或者打数据量是怎么统计的。
[b]问题补充:[/b]
没找到什么好方法,做起来比较麻烦
http://hi.baidu.com/qqrom/blog/item/4daddc43922cf41373f05dfb.html
搜索机制是对准确率有一些弥补,不过分词的准确率还是很重要的

  • 写回答

3条回答 默认 最新

  • fdsafds 2009-07-12 16:06
    关注

    好像暂时没有这种工具,因为对于不同的领域分词各有不同.
    这个正确率可能无法统计.
    正确率也只能是客户给我们反馈,来改变分词库.附和大众的搜索习惯.
    我认为定义这个正确率有点勉强(个人看法).
    确认这个正确率还不于依据搜索的命中率更附和实行.更加直接.

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

悬赏问题

  • ¥50 导入文件到网吧的电脑并且在重启之后不会被恢复
  • ¥15 (希望可以解决问题)ma和mb文件无法正常打开,打开后是空白,但是有正常内存占用,但可以在打开Maya应用程序后打开场景ma和mb格式。
  • ¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝
  • ¥20 腾讯企业邮箱邮件可以恢复么
  • ¥15 有人知道怎么将自己的迁移策略布到edgecloudsim上使用吗?
  • ¥15 错误 LNK2001 无法解析的外部符号
  • ¥50 安装pyaudiokits失败
  • ¥15 计组这些题应该咋做呀
  • ¥60 更换迈创SOL6M4AE卡的时候,驱动要重新装才能使用,怎么解决?
  • ¥15 让node服务器有自动加载文件的功能