1

我想计算字符串中出现字符的概率。例如给定一个字符串“test”,我想得到 P(test)。

P(test) = p(t) * p(e|t) * p (s|te) * p(t|es)

我计算了超过 100k 个字符串的各种二元组频率,并计算了它们出现的概率。我的问题是,通过将字符串中 n-gram 的概率相乘,我会得到准确的答案,还是有更好的方法来找到相同的答案?

非常感谢任何帮助。

4

1 回答 1

1

使用二元组,您的答案将与使用二阶马尔可夫链一样准确。对于这样一个简单的模型,结果出人意料地好,但当然你可以使用更具表现力的模型做得更好。例如,在语言建模中,经常使用隐马尔可夫模型 (HMM) 。

于 2013-07-30T09:30:10.370 回答