1

我对他们如何计算“每个符号的平均位数”有点困惑。这是通过获取每个字符的概率并将其乘以 lg(1/probability) (如常规熵)还是以其他方式计算的?

此外,如果这是真的,他们如何确定一个字母的平均出现次数是多少?

4

1 回答 1

2

我真的不应该回答这个问题,因为我对压缩了解不多,但我可以说:

  • “每个符号的位数”是如何定义的?

你是对的; 它的常规熵定义为-Σp·log(p)。请注意,这实际上不是字符的频率,而是消息的频率。即,以下一组消息

{ abcdefghijklmnopqrstuvwxyz }

逐字母分析看起来很棒,但熵为 0。

  • 你怎么知道一个字母的平均出现次数是多少?

理论上不可能确切知道,除非您知道生成消息的确切过程。您必须使用一些启发式方法。就像采集大量样本并计数,或者寻找您知道是冗余迹象的模式。比如英文文本等。

于 2011-09-12T04:36:12.740 回答