马尔可夫链模型和隐马尔可夫模型有什么区别?我在维基百科中阅读过,但无法理解其中的差异。
5 回答
为了举例说明,我将使用自然语言处理中的一个示例。想象一下,你想知道这句话的概率:
我喜欢咖啡
在马尔可夫模型中,您可以通过计算来估计其概率:
P(WORD = I) x P(WORD = enjoy | PREVIOUS_WORD = I) x P(word = coffee| PREVIOUS_WORD = enjoy)
现在,假设我们想知道这个句子的词性标签,也就是说,如果一个词是过去时动词、名词等。
我们没有观察到该句子中的任何词性标签,但我们假设它们在那里。因此,我们计算词性标签序列的概率是多少。在我们的例子中,实际的顺序是:
PRP-VBP-NN
(其中 PRP=“人称代词”,VBP=“动词,非第三人称单数现在”,NN=“名词,单数或质量”。见https://cs.nyu.edu/grishman/jet/guide/PennPOS .html用于 Penn POS 标记的完整符号)
可是等等!这是一个我们可以应用马尔可夫模型的序列。但我们称之为隐藏,因为词性序列从未被直接观察到。当然,在实践中,我们将计算许多这样的序列,我们希望找到最能解释我们观察的隐藏序列(例如,我们更有可能看到从确定器生成的诸如“the”、“this”之类的词( DET) 标签)
我遇到过的最好的解释是在 1989 年 Lawrence R. Rabiner 的一篇论文中:http ://www.cs.ubc.ca/~murphyk/Bayes/rabiner.pdf
马尔可夫模型是一个状态机,状态变化是概率。在隐马尔可夫模型中,您不知道概率,但您知道结果。
例如,当你掷硬币时,你可以得到概率,但是,如果你看不到掷硬币,并且有人在每次掷硬币时移动了五个手指中的一个,你可以采取手指运动并使用隐马尔可夫模型来计算得到抛硬币的最佳猜测。
据我了解,问题是:马尔可夫过程和隐马尔可夫过程有什么区别?
马尔可夫过程 (MP) 是一个随机过程,具有:
- 有限数量的状态
- 这些状态之间的概率转换
- 仅由当前状态确定的下一个状态(马尔可夫属性)
隐马尔可夫过程 (HMM) 也是一个随机过程,其中:
- 有限数量的状态
- 这些状态之间的概率转换
- 仅由当前状态(马尔可夫属性)确定的下一个状态和
- 我们不确定我们处于哪个状态:当前状态发出一个观察。
示例 - (HMM) 股票市场:
在股票市场中,人们以公司的价值进行交易。让我们假设股票的实际价值是 100 美元(这是不可观察的,实际上你永远不知道)。你真正看到的是它的交易价值:让我们假设在这种情况下是 90 美元(这是可观察到的)。
对于对马尔科夫感兴趣的人:有趣的部分是当你开始对这些模型采取行动时(在前面的例子中,为了赚钱)。这涉及马尔可夫决策过程(MDP)和部分可观察马尔可夫决策过程(POMDP)。为了评估这些模型的一般分类,我在下图中总结了每个马尔可夫模型的主要特征。
由于 Matt 使用词性标签作为 HMM 示例,我可以再添加一个示例:语音识别。几乎所有的大词汇量连续语音识别 (LVCSR) 系统都基于 HMM。
“马特的例子”: 我喜欢咖啡
在马尔可夫模型中,您可以通过计算来估计其概率:
P(WORD = I) x P(WORD = enjoy | PREVIOUS_WORD = I) x P(word = coffee| PREVIOUS_WORD = enjoy)
在隐马尔可夫模型中,
假设有 30 个不同的人阅读“我喜欢拥抱”这句话,我们必须识别它。每个人都会以不同的方式发音这句话。所以我们不知道这个人的意思是“拥抱”还是“霸占”。我们只会得到实际单词的概率分布。
简而言之,隐马尔可夫模型是一种统计马尔可夫模型,其中被建模的系统被假定为具有未观察(隐藏)状态的马尔可夫过程。
隐马尔可夫模型是具有两个层次的双嵌入随机过程。
上层是马尔可夫过程,状态是不可观察的。
实际上,观察是上层马尔可夫状态的概率函数。
不同的马尔可夫状态会有不同的观测概率函数。