有没什么方法,谢谢!
[b]问题补充:[/b]
比如: 纺织品和服装,切分成:纺织品/和服/装。有2个词,1个词切对,就是50%正确率。
[b]问题补充:[/b]
我说的大文本,意思是不能手工统计。
[b]问题补充:[/b]
是的,我主要是需要一个方法,对分词切分的准确性做判断。比如有的分词系统给出说准确率95%什么的,小文本或者说小数据量可以手工统计,但小文本或者小数据量的统计结论肯定是不够正确的。我需要知道大文本或者打数据量是怎么统计的。
[b]问题补充:[/b]
没找到什么好方法,做起来比较麻烦
http://hi.baidu.com/qqrom/blog/item/4daddc43922cf41373f05dfb.html
搜索机制是对准确率有一些弥补,不过分词的准确率还是很重要的
对大文本进行分词,如何统计正确率?
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
3条回答 默认 最新
- fdsafds 2009-07-12 16:06关注
好像暂时没有这种工具,因为对于不同的领域分词各有不同.
这个正确率可能无法统计.
正确率也只能是客户给我们反馈,来改变分词库.附和大众的搜索习惯.
我认为定义这个正确率有点勉强(个人看法).
确认这个正确率还不于依据搜索的命中率更附和实行.更加直接.本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报
悬赏问题
- ¥50 导入文件到网吧的电脑并且在重启之后不会被恢复
- ¥15 (希望可以解决问题)ma和mb文件无法正常打开,打开后是空白,但是有正常内存占用,但可以在打开Maya应用程序后打开场景ma和mb格式。
- ¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝
- ¥20 腾讯企业邮箱邮件可以恢复么
- ¥15 有人知道怎么将自己的迁移策略布到edgecloudsim上使用吗?
- ¥15 错误 LNK2001 无法解析的外部符号
- ¥50 安装pyaudiokits失败
- ¥15 计组这些题应该咋做呀
- ¥60 更换迈创SOL6M4AE卡的时候,驱动要重新装才能使用,怎么解决?
- ¥15 让node服务器有自动加载文件的功能