python - 使用 DiscreteDistribution 时如何解析输入字符

翻译自：https://stackoverflow.com/questions/45019507 2017-07-10T18:42:59.767

164 次

我想使用 Pomegranate 实现的隐藏马尔可夫模型（python API https://pomegranate.readthedocs.io/en/latest/index.html），我想通过指定离散分布来初始化我的马尔可夫模型。

由于它是离散的，当我使用新数据（字符串数据类型）拟合学习模型时，我可能遇到了一些未出现在学习模型分布中的字符。那么有没有一种方法可以“解析”我的输入/分布，以便将不在我的“学习”分布中的任何东西分类到具有指定概率的新组中？

例如，我可能想定义一个像这样的离散分布来避免这个问题：

d1 = DiscreteDistribution({'A' : 0.35, 'B' : 0.20, 'C' : 0.05, 'the-rest-of-char' : 0.40})

所以基本上我如何在使用 HMM 的离散分布时定义正则表达式之类的东西？

任何帮助表示赞赏！

0 回答 0