good-turing平滑方法的缺点改进

如果good-turing平滑方法里面，训练的数据不是连续的，比如N1=9；N2=0；N3=100；N4=0；N5=0,；N6=20；这样的情况里，如果需要计算r=3，显然就是0了；如果需要计算r=6时的，那么也没法计算，因为显然r=7的数据不存在，N7=0，得到的结果也是0，这两个问题又怎么办呢？
此外，在我的bigram模型里面，如果说第一个词s1是已收录词典里面没有的，那么，对于出现了的词对：s1 s2，他们的概率 P（s2|s1）又如何计算呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

Mathilda_HC 2019-06-16 17:03

关注

这个问题是我做毕设初期的疑惑，但是后面自己就可以解答了。
首先，数据平滑里，Good-Turing确实是一个方法。但是对此，可以视为一种基础思想或者基础手段。而对于实际的问题，还是要综合多个平滑思想手段的。
一般搜索数据平滑，常见的机会出现Good-turing，adding-k，Katz等，但是，实际操作的时候，是多个基本平滑思想综合在一起的。
这里，对平滑方法做一个归类：插值与后备。二者都会对频数为0的数据平滑，但是，对于那些不为0的数据如何平滑，是否要用上更低阶去平滑，就有了二者的区分。那有没有不同低阶，统统只用高阶的呢？如问题所问，仅仅用高阶，比如Good-Turing是根本解决不了问题的。所以，要应付所有的为零的现象，必须用高阶。
    那比较实用的数据平滑方法有如下：留存插值法，Jelinek-Mercer 方法，Witten-Bell方法，Kneser-Ney方法，Absolute discounting方法，Modified Kneser-Ney方法以及后备模型下的Katz平滑方法。大多数都是不仅仅用了一种平滑思想。对于这些方法，使用效果说法不一。但是目前我所看到的最多的是 说Kneser-Ney方法最佳，
    我在毕设中实际用到的也是 Kneser-Ney方法，但是很不幸，所选数据还是会出现0的现象，但是已经比Good-turing好太多。于是没有别的办法，我把中间过程的数据0改为了0.1。这也是无奈之举，不过确实不糊影响到实际的概率分布状况。其实也是无奈之举，毕竟自己短期做个项目，数据不可能都训练到，只能自己根据凭据平滑的原则，“机智地”变更了一下下。
    对此，推荐一本书：宗成庆的《统计自然语言》。里面会有详细系统的讲解。

报告相同问题？

关注问题

验证http代理服务器的方法
2011-03-08 12:52

回答 5 已采纳补充一下，我使用的是commons-httpclient-3.0
Python初学者遇到的基础问题 python
2022-09-23 17:27

回答 2 已采纳代码和运行截图如下：有帮助的话记得采纳一下！ FILENAME = "subject_data.txt" def main(): data = get_data() print(da
YAPTCHA
2017-11-23 01:25

回答 1 已采纳 https://blog.csdn.net/synapse7/article/details/18728157
NLP-Good Turning平滑
2021-11-17 22:48

Swayzzu的博客遇见的问题 2.Good Turning平滑 3.实验数据 1.遇见的问题这个平滑方法在语言模型里面应用较多。由于我们的词典库中，单词量非常大，语料中基本上不会完全出现所有的词，因此，如何预测出现新词的概率？ 2.Good ...
Tomcat先报500，然后报404的错误，来个解决下 html java tomcat
2023-03-18 10:18

回答 3 已采纳 http://t.csdn.cn/c5qF6，可以参考一下
在Golang中执行json解组时为空字段 json
2018-05-16 09:16

回答 1 已采纳 Your JSON to Go mapping is incorrect. To have automatic matching between struct fields and the JSO
Final Standings
2017-09-08 04:38

回答 3 已采纳 http://blog.csdn.net/zccz14/article/details/51449748
N-gram的平滑算法简介
2023-03-21 11:45

C@1M1n9的博客 N-gram作为统计语言模型的重要...N-gram会因为数据稀疏而导致效果变差，也就是某些n元组在训练样本中未出现，则其样本概率为0，这是一个很差的概率估计，会导致模型估计效果变差，可以通过数据平滑来解决数据稀疏问题。
Hard to Believe, but True!
2017-01-19 17:18

回答 2 已采纳 http://blog.csdn.net/jtjy568805874/article/details/47376345
在网址参数中获取字节数组作为字符串
2017-10-15 13:23

回答 1 已采纳 Use the encoding/hex package. r.ParseForm() var message SigFoxMessage n, err := hex.Decode(messag
Language of FatMouse
2017-07-25 07:21

回答 2 已采纳 http://blog.csdn.net/u010625743/article/details/44207409
LLMs：《BLOOM: A 176B-Parameter Open-Access Multilingual Language Model》翻译与解读
2022-12-31 23:53

一个处女座的程序猿的博客 4.6、HELM benchmark基准 4.7、Multitask Finetuning多任务微调 4.8、Embeddings嵌入 4.9、Multilingual Probing多语言探测 4.9.1、Method方法 Baselines 基准 Correlation相关性 4.9.2、Results结果 Probing探测 ...
CAPTCHA
2017-04-16 16:29

回答 1 已采纳 https://www.baidu.com/link?url=Kexj8zduYjo3wyxr1AMze0-Zoxuz4-fY6BTJnmPW9vREOxjdhXSdKqgqUsKen7FUdnHZW
N-gram语言模型
2022-10-19 22:06

章魚.的博客在语音识别过程中，通过前面介绍的GMM-HMM模型可以通过viterbi等算法求解得到最佳状态序列。但若针对的语音包括所有词汇、英文... n-gram文法中数据稀疏问题解决方案之一：Good-Turing平滑 - 腾讯云开发者社区-腾讯云
语言模型（一）—— 统计语言模型n-gram语言模型
2020-09-13 17:54

知了爱啃代码的博客从传统的语言模型到统计语言模型，深入了解n-gram语言模型的原理、计算方法、优缺点等。
AI大语音（十）——N-gram语言模型（深度解析）
2020-10-14 16:19

AI大道理的博客使用Good-Turing平滑算法进行语言模型训练命令：步骤三：语言模型评价（计算 PPL） -ppl为对测试集句子进行评分(logP(T)，其中P(T)为所有句子的概率乘积）和计算测试集困惑度的参数。 10个句子的语言模型，测试...
UCAS - AI学院 - 自然语言处理专项课 - 第5讲 - 课程笔记
2020-04-20 20:00

支锦铭的博客 UCAS-AI学院-自然语言处理专项课-第5讲-课程笔记语言模型传统语言模型n元文法参数估计数据平滑方法语言模型自适应应用神经语言模型背景前馈神经网络语言模型循环神经网络语言模型自我注意力机制语言模型应用文本表示...
【读书笔记】自然语言处理综论 -- 第四章 -- N元语法
2019-10-23 11:46

Yanqiang_CS的博客这个方法的缺陷是\(N_{c+1}\)可能为0，解决方法是使用Simple Good-Turing算法，先对\(N_c\)进行平滑。还有就是可以假定较大的计数是可靠的，设定一个阈值。此外，也可以把计数较低(如1)的N元语法看成未见事件，...
【Attention,Self-Attention Self Attention Self_Attention】通俗易懂
2022-08-26 20:13

诚俊杰的博客 This representation is expected to be a good summary of the meaning of the whole source sequence.（编码器处理输入序列，并将信息压缩成一个固定长度的上下文向量（也称为句子嵌入或 "思想 "向量）。...
LLMs模型速览（GPTs、LaMDA、GLM/ChatGLM、PaLM/Flan-PaLM、BLOOM、LLaMA、Alpaca）
2023-06-18 16:46

神洛华的博客文章目录一、 GPT系列 1.1 GPTs（OpenAI，2018——2020） 1.2 InstructGPT（2022-3） 1.2.1 算法 1.2.2 损失函数 1.3 ChatGPT（2022.11.30） 1.4 ChatGPT plugin 1.5 GPT-4（2023.3.14）二、 LaMDA系列 2.1 LaMDA...
没有解决我的问题, 去提问

悬赏问题

¥15 matlab生成电测深三层曲线模型代码
¥50 随机森林与房贷信用风险模型
¥50 buildozer打包kivy app失败
¥30 在vs2022里运行python代码
¥15 不同尺寸货物如何寻找合适的包装箱型谱
¥15 求解 yolo算法问题
¥15 虚拟机打包apk出现错误
¥15 用visual studi code完成html页面
¥15 聚类分析或者python进行数据分析
¥15 三菱伺服电机按启动按钮有使能但不动作

码龄粉丝数原力等级 --

good-turing平滑方法的缺点改进

1条回答

码龄粉丝数原力等级 --

悬赏问题