3

在一个笔记中,我发现了这句话:

使用英语语言的孤立符号概率,您可以找出语言的熵。

“孤立的符号概率”实际上是什么意思?这与信息源的熵有关。

4

1 回答 1

4

知道笔记来自哪里以及上下文是什么会很有帮助,但即使没有,我也很确定这仅仅意味着他们使用单个符号(例如字符)的频率作为熵的基础,而不是例如联合概率(字符序列),或条件概率(一个特定字符跟随另一个)。

因此,如果您有一个字母 X={a,b,c,...,z} 和概率 P(a), P(b),... 每个字符出现在文本中(例如,基于频率在数据示例中找到),您可以通过分别计算每个字符 x 的 -P(x) * log(P(x)) 然后取所有字符的总和来计算。那么,很明显,你会使用每个字符概率,而不是每个字符在上下文中的概率。

但是请注意,您找到的注释中的术语符号不一定指字符。它可能指的是单词或其他文本单位。然而,他们提出的观点是,他们将熵的经典公式应用于单个事件(字符、单词等)的概率,而不是复杂或条件事件的概率。

于 2012-03-06T00:51:41.687 回答