在嘎嘎声中运行描述性统计数据,需要知道结果中的“信息”是什么。无法在小插曲中找到任何信息。这是我所说的一个例子:
变量 1 n 缺失唯一 信息 总和均值 89588 0 2 0.61 25735 0.2873
我们认为这是 0 到 1 的分数,但我们无法找到确切的定义。
Rattle 中使用的 describe 函数来自 HMisc 包。
在 HMisc::describe 的文档中,这是关于 Info 的:
对于数值变量,describe 添加了一个名为 Info 的项目,它是一种相对信息度量,它使用变量的比例赔率/Wilcoxon 检验相对于没有关系的变量的相同检验的相对效率。信息与变量的连续性有关,并且未绑定的值越多,绑定的危害就越小。Info 的公式是 1 减去值的相对频率的立方和除以 1 减去样本量倒数的平方。最低信息来自一个只有一个唯一值的变量,后面跟着一个高度倾斜的二进制变量。信息报告到小数点后两位。