如果内在信息和熵(“消息”),我正在查看香农的定义。老实说,我无法直观地理解为什么香农用对数来定义这两个(除了对数的可取的“将乘法拆分为和”属性,这确实是可取的)。
任何人都可以帮我解释一下吗?
谢谢。
如果内在信息和熵(“消息”),我正在查看香农的定义。老实说,我无法直观地理解为什么香农用对数来定义这两个(除了对数的可取的“将乘法拆分为和”属性,这确实是可取的)。
任何人都可以帮我解释一下吗?
谢谢。
我相信当香农提出香农熵的想法时,香农正在贝尔实验室工作:他的研究目标是用比特(0 和 1)最好地编码信息。
这就是 log2 的原因:它与消息的二进制编码有关。如果在电信线路上传输可以取 8 个不同值的数字,则需要长度为 3 位 ( log2(8) = 3
) 的信号来传输这些数字。
香农熵是对消息的每个字符进行编码所需的最小位数(对于以任何字母表编写的任何消息)。
让我们举个例子。我们有以下信息要使用位进行编码:
"0112003333"
. 消息的字符在 中{0,1,2,3}
,因此我们最多需要log2(4) = 2
位来编码此消息的字符。例如,我们可以使用以下方式对字符进行编码:
0 would be coded by 00
1 would be coded by 01
2 would be coded by 10
3 would be coded by 11
然后消息将被编码如下:"00010110000011111111"
然而,如果我们选择只在一个位上编码最常见的字符,另一个在两个位上编码,我们可以做得更好:
0 would be coded by 0
1 would be coded by 01
2 would be coded by 10
3 would be coded by 1
然后消息将被编码如下:"0010110001111"
所以 的熵"0112003333"
在 1 和 2 之间(更准确地说是 1.85)。