DevJasper 2019-03-13 10:18 采纳率: 0%
浏览 1189

为什么隐马尔科夫模型(HMM)有识别新词的能力?

基于HMM的分词方法是一种基于概率统计的序列标注方案,请问可否有人帮我解释一下,为什么HMM可以识别新词呢?万分感谢!

  • 写回答

1条回答 默认 最新

  • 搞点學術的研究生 2019-03-17 16:38
    关注

    这个应该是通过HMM来对新词做的一个词性概率统计(通过语料库)。把概率最高的词性赋给新词。
    隐马尔可夫模型(HMM)可以用五个元素来描述,包括2个状态集合和3个概率矩阵:
    1. 隐含状态 S (Viterbi算法所求) (状态序列,state sequence)
    这些状态之间满足马尔可夫性质(t时刻的状态只与它t-1时刻的状态相关),是马尔可夫模型中实际所隐含的状态。这些状态通常无法通过直接观测而得到。(例如S1、S2、S3等等) 它由一阶马尔可夫链产生,也就是说每一时刻的状态qt只依赖于前一时刻的状态:qt-1
    P(qt|q1,o1,...,qt−1,ot−1)=P(qt|qt−1)P(qt|q1,o1,...,qt−1,ot−1)=P(qt|qt−1)
    P(q1,q2,...,qt)=P(q1)P(q2|q1)P(q3|q1,q2)⋯P(qt|q1,...,qt−1)=P(q1)P(q2|q1)P(q3|q2)⋯P(qt|qt−1)
    (概率求的是每个字成为B,M,E,S的概率)
    2. 可观测状态 O (自然文本中的句子)(观测序列,observation sequence)
    在模型中与隐含状态相关联,可通过直接观测而得到。(例如O1、O2、O3等等,可观测状态的数目不一定要和隐含状态的数目一致。) 观测序列服从观测独立性假设(每一时刻的观测值Ot只依赖于该时刻的状态值qt)
    P(ot|q1,o1,...,qt,ot)=P(ot|qt)
    对于给定的序列O来说,P(O)是确定的,所以HMM的任务就是要建模 P(O,Q)(联合概率,即P(OQ),O,Q同时发生的概率)

    1. 初始状态概率矩阵 π 表示隐含状态在初始时刻t=1的概率矩阵,(例如t=1时,P(S1)=p1、P(S2)=P2、P(S3)=p3,则初始状态概率矩阵 π=[ p1 p2 p3 ]. π_i=P(q_1=S_i ), ∑_(i=1)^N▒〖π_i=1〗
    2. 隐含状态转移概率矩阵 A。 描述了HMM模型中各个状态之间的转移概率。 其中aij = P( Sj | Si ),1≤i,,j≤N. a_ij=P(q_t=S_j│q_(t-1)=S_i ), ∑_(j=1)^N▒〖a_ij=1〗, 1≤i≤N 表示在 t 时刻、状态为 Si 的条件下,在 t+1 时刻状态是 Sj 的概率。

    A和π是一阶马尔可夫链的两个参数。

    1. 观测状态转移概率矩阵(发射概率矩阵) B (英文名为Confusion Matrix,直译为混淆矩阵不太易于从字面理解)。 令N代表隐含状态数目,M代表可观测状态数目,则: Bqj(oi) = P( Ot=Oi | qt=Sj ), 1≤i≤M,1≤j≤N. 表示在 t 时刻、隐含状态是 Sj 条件下,观察状态为 Oi 的概率。

    总结:一般的,可以用λ=(A,B,π)三元组来简洁的表示一个隐马尔可夫模型。隐马尔可夫模型实际上是标准马尔可夫模型的扩展,添加了可观测状态集合和这些状态与隐含状态之间的概率关系。

    HMM中核心的就是使用了Viterbi 算法。维特比算法也算是一种动态规划方法。原理就是“不论初始状态和初始决策如何,其余的决策对于初始决策所形成的状态来说,必定也是一个最优策略。”通俗一点说,已知最优路径P,那么我们在路径上选择一个节点,从起点到该节点的这段局部路径P1一定是所有可能的局部路径里最优的;同样地,从这个节点到终点的局部路径P2一定是所有可能的局部路径里最优的。(也就是寻找最有可能的词性及分词)

    这是我之前整理的笔记,结巴分词可以了解一下。最近新出了一个百度的ERNIE(只是增强的语义表示)也是做分词,可以了解一下。或许能解决你的疑惑。

    评论

报告相同问题?

悬赏问题

  • ¥15 FPGA-SRIO初始化失败
  • ¥15 MapReduce实现倒排索引失败
  • ¥15 luckysheet
  • ¥15 ZABBIX6.0L连接数据库报错,如何解决?(操作系统-centos)
  • ¥15 找一位技术过硬的游戏pj程序员
  • ¥15 matlab生成电测深三层曲线模型代码
  • ¥50 随机森林与房贷信用风险模型
  • ¥50 buildozer打包kivy app失败
  • ¥30 在vs2022里运行python代码
  • ¥15 不同尺寸货物如何寻找合适的包装箱型谱