假设我有一个N
个人样本和一个随机变量X
,代表他们的外币年收入。的一个例子X
可能如下:
15000
11000
9000
4000
4000
3900
3800
3600
3400
1000
900
800
700
700
400
300
300
300
200
100
现在我应该“采样” 3个“有序”子组中的20
组件X
(不需要相同数量的组件),以便它们(大约)具有相同的基尼系数。
提醒一下基尼系数:只需计算每个收入占总收入的百分比(例如
p1=1500/(1500+1100+...)
,p2=1100/(1500+1100+...)
, ...,p20=100/(1500+1100+...)
),然后是累积百分比值(例如c1=0+p1
,c2=p1+p2
, ...,c20=p19+p20=1
),然后计算下面的面积累积 (A=(c1+...+c20-0.5)/(20)-0.5
) ,因此是基尼系数G=2*A
。
这可以通过蛮力轻松完成:将样本一分为三,计算三个样本的基尼系数,并尝试从/移到中间样本的上下分量,以确定基尼系数的差异是改善还是恶化。但是,手动完成非常耗时(例如在 Excel 上),尤其是当我有一个非常大的数据集时。
我怀疑有一个更优雅的解决方案。我对Python
和都持开放态度R
。
附加细节
输出将是这样的:X
1 2 3
1500 3900 400
1100 3800 300
9000 3600 300
4000 3400 300
1000 200
900 100
800
700
700
对于G
, 三个子组的实际基尼系数
1 2 3
0.4 0.41 0.39