python - n-gram 马尔可夫链转移表

Question

我正在尝试从给定的一段文本构建一个 n-gram 马尔可夫模型，然后访问它的转换表，以便我可以计算每个长度为 n 的单词序列（克）的条件熵。例如，在一个 2-gram 模型中，在阅读了一个文本语料库之后

“狗追猫狗追猫狗追猫狗追猫狗追猫狗追猫狗追猫狗追猫狗追猫狗追人”

并建立一个内部转换表，状态“狗追”可能以0.9的概率转换为“追猫”的状态，以0.1的概率转换为“追人”的状态。如果我知道可能的转换，我可以计算条件熵。

有没有什么好的python库可以做到这一点？我检查了 NLTK、SRILM 和其他，但没有找到太多。

score 2 · Accepted Answer

自这篇文章首次创建以来只有 4 年多一点，我发现自己也遇到了同样的问题。虽然可以手动执行此操作，但我继续创建了适应主义包，它提供了更多功能！

您不仅可以访问转换表，还可以对任何 N-gram 组合执行此操作。

随着时间的推移，我将继续构建这个工具包，请随时向我发送有关未来功能的建议！

1 回答 1