1

我将一个名为 gob 的数据集加载到 R 中并尝试了方便的summary功能。请注意,第三个四分位数小于平均值。怎么会这样?是我的数据大小还是其他类似的东西?

我已经尝试为digits 参数传入一个较大的值(例如10),但这并不能解决问题。

> summary(gob, digits=10)

   customer_id         100101.D            100199.D            100201.D        
 Min.   :   1083   Min.   :0.0000000   Min.   :0.0000000   Min.   :0.0000000  
 1st Qu.: 965928   1st Qu.:0.0000000   1st Qu.:0.0000000   1st Qu.:0.0000000  
 Median :2448738   Median :0.0000000   Median :0.0000000   Median :0.0000000  
 Mean   :2660101   Mean   :0.0010027   Mean   :0.0013348   Mean   :0.0000878  
 3rd Qu.:4133368   3rd Qu.:0.0000000   3rd Qu.:0.0000000   3rd Qu.:0.0000000  
 Max.   :6538193   Max.   :1.0000000   Max.   :1.0000000   Max.   :0.7520278  

请注意,对于 gob$100201.D,平均值是 0.0000878,但第三个 Qu。= 0。

4

2 回答 2

14

这不是错误,只是您的数据包含很多 0 值。例如,如果我用 12 个 0 和 1 个 1 制作 x,我得到的结果是第 3 个四分位数小于平均值

 x<-c(0,0,0,0,0,0,0,0,0,0,0,0,1)
summary(x)

  Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
0.00000 0.00000 0.00000 0.07692 0.00000 1.00000 

尝试在列上使用 table() 来查看值的分布

table(x)
 x
 0  1 
 12  1 
于 2012-12-06T07:19:43.237 回答
5

第三个分位数可能低于平均值。它不是最高值的 75%,而是从最低到最高排序时向量计数的 75% 处的值。换句话说:

Vector <- c(0,0,0,0,0,0,0,1)
mean(Vector)
[1] 0.125
quantile(Vector, 0.75)
[1] 0

为了找到第三个分位数,R 将所有数据从最低到最高排序,然后选择最接近该向量长度的 75% 的值。所以基本上:

3rdQuar = Vector[round(length(Vector)*0.75)]

(请注意,如果它落在两个整数之间,R 实际上会平均这两个数字。但这是基本思想)

于 2012-12-06T07:22:54.317 回答