我将标点符号预测问题建模为隐藏事件模型,并尝试遵循 Stolcke 的论文Modeling the Prosody of Hidden Events for Improvement Word Recognition 中描述的算法。
在计算了一个 ngram 模型后,他描述了计算事件的最大似然序列的算法:
通过对 P(W,S) 使用 N-gram 模型,并如等式 4 那样分解韵律似然性,联合模型 P(W,S,F) 等效于隐马尔可夫模型 (HMM)。HMM 状态是(单词,事件)对,而韵律特征形成观察。转移概率由 N-gram 模型给出;排放概率由下述韵律模型估算。基于这种结构,我们可以使用熟悉的 HMM 前向动态规划算法有效地对所有可能的事件序列进行求和。
我很困惑这怎么可能是带有状态(单词,事件)的马尔可夫模型,因为如果我们的基础模型是 N-gram 模型,在我看来,状态需要对 N-1 个先前的单词进行编码才能拥有所有必要的信息来预测下一个状态。这里发生了什么?谢谢!