我有一个由数千行组成的语料库。为简单起见,让我们将语料库视为:
Today is a good day
I hope the day is good today
It's going to rain today
Today I have to study
如何使用上面的语料库计算熵?熵的公式如下:
到目前为止,这是我的理解: Pi 是指计算为 的单个符号的概率frequency(P) / (total num of characters)
。我不明白的是总和?我不确定在这个特定公式中求和是如何工作的?
我Python 3.5.2
用于统计数据分析。如果有人可以帮助我提供熵计算的代码片段,那就太好了。