0

我想对我的数据进行winsorize,如下所示(总共 134 个观察值):

                         company   id    rev   size age 
1                           Adeg 29.9   0.66    160  45     
2                         Agrana 32.0   2.80   9191  29     
3                        Allianz 36.5  87.75 142460 128     
4                        Andritz 34.0   6.89  29096 118     
5                          Apple 41.0 259.65 132000  41

为了使用包中的winsorize函数,我通过简单地使用函数DescTools创建了一个变量的单个数字向量:revselectrev_vector <- select(data1, -...)

然后我按以下方式运行该函数,这给了我一个错误:

> Winsorize(rev_vector)
Error in `[.data.frame`(x, order(x, na.last = na.last, decreasing = decreasing)) : 
  undefined columns selected

这是因为我实现了data.frame而不是向量而引起的吗?或者,我尝试了以下方法:

> Winsorize(rev_vector$rev, probs = c(0.05, 0.95))
  [1]   0.66   2.80  87.75   6.89 134.73   0.09  22.78   1.36   5.48   0.70   0.79   0.35  31.37   0.55   0.94   0.06
 [17]  12.36  13.58   7.95   0.29   7.80   0.39  73.55   0.09  23.07   0.27   0.32   0.08   0.05   0.41  29.47   0.66
 [33]  20.91   0.67   0.05   1.39   0.17   0.14   1.79   0.05   2.52   3.68   0.24   0.09 109.65   8.43   0.20   0.17
 [49]  35.93   3.05   0.07   0.05   0.82   0.57  26.21   0.28   0.05   5.72   6.12   4.09   0.05   0.22 134.73  94.43
 [65]  41.35   0.20  17.32   5.63   3.25   0.12   0.05   0.07  10.89   3.79   1.89 134.73   9.98  10.58  54.98 134.73
 [81]  15.55  15.21   5.93  42.65   1.59   3.00  11.19   6.10   0.08 134.73  31.37  17.74  20.92   6.46   3.18   0.05
 [97]   0.81   9.15  29.47   0.05   1.34   7.97 109.65  28.45  35.93   0.38   0.65 134.73   9.44   8.66   5.30  11.83
[113]  20.06  29.55   1.15   2.32  46.14 134.73   9.98  10.58  11.05  54.98 134.73  15.55  15.21   5.93   1.59   1.03
[129]   3.00  11.19   6.10

我不确定结果意味着什么?由于我认为 winorize 在查看 vector: 的摘要时实际上并没有起作用summary(rev_vector$rev),因此它与之前的 winsorizing 没有变化。

有人可以帮我吗?谢谢!

4

1 回答 1

0

你快到了,只是你为分位数选择了限制性概率。您的向量在其边缘已经有相当数量的相等值。它之前可能已经被winsorized了吗?

library(DescTools)

x <-  c(0.66, 2.8, 87.75, 6.89, 134.73, 0.09, 22.78, 1.36, 
        5.48, 0.7, 0.79, 0.35, 31.37, 0.55, 0.94, 0.06, 12.36, 13.58, 
        7.95, 0.29, 7.8, 0.39, 73.55, 0.09, 23.07, 0.27, 0.32, 0.08, 
        0.05, 0.41, 29.47, 0.66, 20.91, 0.67, 0.05, 1.39, 0.17, 0.14, 
        1.79, 0.05, 2.52, 3.68, 0.24, 0.09, 109.65, 8.43, 0.2, 0.17, 
        35.93, 3.05, 0.07, 0.05, 0.82, 0.57, 26.21, 0.28, 0.05, 5.72, 
        6.12, 4.09, 0.05, 0.22, 134.73, 94.43, 41.35, 0.2, 17.32, 5.63, 
        3.25, 0.12, 0.05, 0.07, 10.89, 3.79, 1.89, 134.73, 9.98, 10.58, 
        54.98, 134.73, 15.55, 15.21, 5.93, 42.65, 1.59, 3, 11.19, 6.1, 
        0.08, 134.73, 31.37, 17.74, 20.92, 6.46, 3.18, 0.05, 0.81, 9.15, 
        29.47, 0.05, 1.34, 7.97, 109.65, 28.45, 35.93, 0.38, 0.65, 134.73, 
        9.44, 8.66, 5.3, 11.83, 20.06, 29.55, 1.15, 2.32, 46.14, 134.73, 
        9.98, 10.58, 11.05, 54.98, 134.73, 15.55, 15.21, 5.93, 1.59, 
        1.03, 3, 11.19, 6.1)

summary()在这种情况下有点粗糙。

summary(Winsorize(x))
# Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
# 0.05    0.48    5.48   19.73   17.53  134.73 

使用Desc()可以让您更详细地了解数据中发生了什么。

Desc(Winsorize(x))

# -----------------------------------------------------    
# Winsorize(x) (numeric)
#
#  length       n    NAs  unique     0s   mean  meanCI
#     131     131      0      95      0  19.73   13.53
#          100.0%   0.0%           0.0%          25.92
#                                                     
#     .05     .10    .25  median    .75    .90     .95
#    0.05    0.08   0.48    5.48  17.53  54.98  134.73
#                                                     
#   range      sd  vcoef     mad    IQR   skew    kurt
#  134.68   35.84   1.82    7.87  17.05   2.35    4.42
#                                                     
# lowest : 0.05 (9), 0.06, 0.07 (2), 0.08 (2), 0.09 (3)
# highest: 73.55, 87.75, 94.43, 109.65 (2), 134.73 (8)

你看,你有 9 倍的价值 0.05 和 8 倍的价值 134.73。因此,概率为 0.05 和 0.95 的分位数与极值相同,并且 Winsorized 向量与原始向量保持相同。

quantile(x=x, probs=c(0.05, 0.95))
#    5%    95% 
#  0.05 134.73 

简单地增加概率说 c(0.1, 0.9) 你就会看到效果。

PS: Winsorize()需要一个向量作为参数,不能处理 data.frames。(这在帮助文件中也是如此描述的......)

PPS:一个可重复的例子会有所帮助...... ;-)

于 2019-10-30T22:17:04.447 回答