Mathilda_HC
Mathilda_HC
2019-05-04 17:16

good-turing平滑方法的缺点改进

  • java
  • 机器学习
  • 自然语言处理
  • 数据挖掘

如果good-turing平滑方法里面,训练的数据不是连续的,比如N1=9;N2=0;N3=100;N4=0;N5=0,;N6=20;这样的情况里,如果需要计算r=3,显然就是0了;如果需要计算r=6时的,那么也没法计算,因为显然r=7的数据不存在,N7=0,得到的结果也是0,这两个问题又怎么办呢?
此外,在我的bigram模型里面,如果说第一个词s1是已收录词典里面没有的,那么,对于出现了的词对:s1 s2,他们的概率 P(s2|s1)又如何计算呢?

  • 点赞
  • 回答
  • 收藏
  • 复制链接分享

1条回答

为你推荐

换一换