我想实现一个经典的马尔可夫模型问题:训练 MM 学习英文文本模式,并用它来检测英文文本与随机字符串。
我决定使用hmmlearn
,所以我不必自己写。但是我对如何训练它感到困惑。似乎需要 HMM 中的组件数量,但英文的合理数量是多少?另外,我可以不做一个简单的高阶马尔可夫模型而不是隐藏吗?据推测,有趣的属性是 ngram 的模式,而不是隐藏状态。
我想实现一个经典的马尔可夫模型问题:训练 MM 学习英文文本模式,并用它来检测英文文本与随机字符串。
我决定使用hmmlearn
,所以我不必自己写。但是我对如何训练它感到困惑。似乎需要 HMM 中的组件数量,但英文的合理数量是多少?另外,我可以不做一个简单的高阶马尔可夫模型而不是隐藏吗?据推测,有趣的属性是 ngram 的模式,而不是隐藏状态。