Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我对他们如何计算“每个符号的平均位数”有点困惑。这是通过获取每个字符的概率并将其乘以 lg(1/probability) (如常规熵)还是以其他方式计算的?
此外,如果这是真的,他们如何确定一个字母的平均出现次数是多少?
我真的不应该回答这个问题,因为我对压缩了解不多,但我可以说:
你是对的; 它的常规熵定义为-Σp·log(p)。请注意,这实际上不是字符的频率,而是消息的频率。即,以下一组消息
-Σp·log(p)
{ abcdefghijklmnopqrstuvwxyz }
逐字母分析看起来很棒,但熵为 0。
理论上不可能确切知道,除非您知道生成消息的确切过程。您必须使用一些启发式方法。就像采集大量样本并计数,或者寻找您知道是冗余迹象的模式。比如英文文本等。