python-3.x - 如何使用hmmlearn对英文文本进行分类？

翻译自：https://stackoverflow.com/questions/43178966 2017-04-03T07:32:52.657

742 次

0

我想实现一个经典的马尔可夫模型问题：训练 MM 学习英文文本模式，并用它来检测英文文本与随机字符串。

我决定使用hmmlearn，所以我不必自己写。但是我对如何训练它感到困惑。似乎需要 HMM 中的组件数量，但英文的合理数量是多少？另外，我可以不做一个简单的高阶马尔可夫模型而不是隐藏吗？据推测，有趣的属性是 ngram 的模式，而不是隐藏状态。

1 回答 1

0

hmmlearn专为 HMM 的无监督学习而设计，而您的问题显然是有监督的：给定英语和随机字符串的示例，学习区分两者。此外，正如您正确指出的那样，隐藏状态的概念很难为文本数据定义，因此对于您的问题，纯 MM 会更合适。我认为您应该能够在 Python 中用不到 100 行代码来实现它们。

于 2017-04-11T20:25:30.397 回答