问题标签 [gini]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
7483 浏览

r - 用样品重量计算基尼的公式是什么

我需要您的帮助来解释如何获得与此函数相同的结果:gini(x, weights=rep(1,length=length(x))) http://cran.r-project.org/web/ packages/reldist/reldist.pdf --> 第 2 页。 Gini

比方说,我们需要测量人口 N 的 inocme。为此,我们可以将人口 N 分成 K 个子组。并且在每个子组 kth 中,我们将选取 nk 个个人并询问他们的收入。结果,我们将获得“个人收入”,每个人将有特定的“样本权重”来表示他们对人口 N 的贡献。这是我简单地从上一个链接获得的示例,数据集来自 NLS

我知道如何通过我自己的代码计算没有 WEIGHTS 的 Gini。因此,毫无疑问,我想在我的代码中保留命令 gini(y)。我唯一关心的是 gini(y,w) 的操作方式以获得结果 0.3483615。我尝试进行如下计算,看看是否能得出与 gini_yw 相同的结果。这是我基于本书第 9.5 节 CDF 的另一个代码:Mark S. Handcock 的“社会科学中的相对分配方法”,

如您所见,我的计算 gini_z 与命令 gini(y, weights) 不同。如果你们中的某个人知道如何构建正确的计算以准确获得 gini_yw = 0.3483615,请给我您的建议。

非常感谢朋友。

0 投票
1 回答
1010 浏览

r - 如何创建for循环来计算r中分箱数据的gini函数?

我在尝试使用合并的人口普查数据计算基尼系数时遇到了一些困难,非常感谢任何帮助。

我的数据看起来有点像这样(但有 13 个变量的 14,000 次观察)。

因此,对于每个观察,都有一个给定的位置,然后是一系列列,表明该地区有多少家庭在给定的收入范围内赚取收入(因此对于位置 A,20 个家庭的收入为 0 美元,13 个家庭的收入为 1,27 个家庭的收入为 2 和 0 个收入 3 )。

我创建了一个空列来将结果返回到:

df$gini = 0

然后,我创建了一个数值向量 (x),其中包含我想用于每个收入箱的收入金额

我一直在尝试使用 reldist 包中的 gini 函数,并编写了以下 for 循环来循环遍历每一行数据,应用 gini 函数并将输出返回到新列。

问题是当前返回的输出对于每一行都是相同的,这显然是不正确的。不过我对此比较陌生,不知道我做错了什么......

0 投票
1 回答
1090 浏览

syntax-error - Stata:用于存储基尼系数值的for循环

我有 133 个收入变量(每个变量代表一个组)。我想要所有这些组的基尼系数,所以我ineqdeco在 Stata 中使用。我无法手动计算所有这些系数,所以我创建了一个 for 循环:

还尝试更改顺序:

i事先指定:

我不知道最后一种方法是否有效。在所有情况下,我都会收到错误:weight not allowed r(101)。我不知道这意味着什么,也不知道该怎么做。基本上,我想计算所有 133 个变量的基尼系数,并将这些值存储在长度为 133 的向量中,因此是一个包含所有系数的单个变量。

编辑:我发现错误与replace命令有关。我将这一行替换为:

但现在它没有“循环”,所以我得到了所有条目中的第一个值sgini

0 投票
0 回答
285 浏览

r - 为什么决策树的结果与卡方检验的重要性不同?

我对决策树还很陌生。当我在二进制、分类变量和家庭规模之间进行卡方检验时,我使用 R 中“fifer”包中的 Bonferroni 控制方法从事后分析中得到以下 p 值和随后的成对 p 值,其中使用 Fisher 检验:

然而,当我基于相同的数据创建决策树时,使用'method = “class”',并在 R 的 rpart 包中使用 cp = .01 的 gini 分割标准,树以家庭大小 1 分割(因为我会根据上表预期),然后是 3(不是我根据上表所期望的),然后是 2。我曾预计树分裂与卡方表对齐,这意味着它会分裂重要性顺序,即在 1 处拆分然后在 4 处拆分。这是不正确的思路吗?如果是这样,为什么?我的印象是这两种方法都使用相同的测试来确定重要性,并且决策树会相应地拆分,但这似乎不正确。

我已经在 Stackoverflow 以及其他在线地方进行了研究。我遇到了这篇文章,这似乎证实了我的想法,但我仍然不确定为什么我会得到不同的结果。

0 投票
1 回答
2186 浏览

r - 在R中按行计算基尼

堆栈溢出。

我正在尝试通过 6 列 (1326 x 6) 计算我的数据帧的每一行(1326 行长)内的基尼系数。

我现在的代码...

... 用相同的数字 0.7522439 填充所有行 - 这显然是错误的。

注意:我使用的是 reldist 包中的 gini 函数。

有没有一种方法可以计算每行 6 列的基尼系数?

提前致谢。

0 投票
1 回答
6894 浏览

random-forest - 在 h2o 随机森林中用于“重要性”的度量是什么

这是我的代码:

我得到的输出是“变量重要性”。

经典的衡量标准是“准确度平均下降”和“基尼系数平均下降”。

我的结果是:

由此,我对“Vote #4”又名 V4 的相对重要性约为 3255.2。

问题: 这是什么单位?那是怎么推导出来的?

我尝试查看文档,但没有找到答案。我尝试了帮助文档。我尝试使用 Flow 查看参数以查看其中是否有任何指示。在他们中,我没有找到“基尼”或“降低准确性”。我应该去哪里看?

0 投票
1 回答
778 浏览

r - 使用 R 调查包测量收入不平等

我正在使用该survey软件包处理美国社区调查微观数据,并希望计算一些基本的收入不平等统计数据。我已将以下内容设置为我的设计:

由此,我想按年计算基尼系数,以及按年计算收入的分位数比率。svyby使用and生成分位数和相关误差很简单svyquantile

这让我想到了第一个问题:如果每个分位数都有基于复制权重的误差,我如何计算收入分位数比率的标准误差(例如 90/10)?我尝试使用svyratio,但这是针对整个变量的比率,而不是针对变量中的选定观察值。

第二个问题:有没有办法在survey使用现有函数(如ginifrom )内计算基尼系数(具有基于复制的误差) reldist?我尝试使用withReplicates,但效果不佳,可能是因为gini将其参数排序为变量,然后是权重,但是withReplicates指定相反顺序的说明。我尝试了两种方法,但都没有奏效。例如,这里 HHWT 是样本权重:

这会产生以下错误消息:

0 投票
1 回答
126 浏览

r - 使用包 DescTools 的 Gini 函数的整数溢出错误

我想使用Gini()from计算基尼系数DescTools(因为它提供了一种简单的方法来计算具有权重、置信区间等的“无偏”基尼系数),但是当我将此函数与“大”样本一起使用时会出现一些错误。这是一个在我这边产生错误的简单示例:

警告消息:1:在 sum(x * 1:n) 中:整数溢出 - 使用 sum(as.numeric(.)) 2:在 n * sum(x) 中:整数溢出产生的 NA

我不知道是什么问题,有什么想法吗?我正在使用 R 版本 3.3.1 (2016-06-21)——“你头发上的虫子”和 RStudio 版本 0.99.903 和“DescTools”版本 0.99.17。
编辑:哦,好吧,将我的数字从整数转换为数字似乎可以完成这项工作(但我仍然不明白,无论如何......):

0 投票
1 回答
1292 浏览

python - SAS 代码 - 试图了解如何建立 GINI 指数

我正在参加数据科学竞赛,我的最终预测将通过 GINI 指数来衡量。这是一个回归问题。我有 SAS 计算的源代码,但我不知道 SAS,也无法理解发生了什么。

我想在 Python 中构建相同的东西。任何帮助,将不胜感激。如果有人知道这方面的 Python 代码,那将有很大帮助。

0 投票
1 回答
3320 浏览

r - 是否有任何函数可以计算 R 中 CART(决策树算法)的基尼指数?

在使用 CART 时,我想使用 Gini 指数从整个属性中选择主要属性。

但我找不到任何包含它的函数或包。

如果有任何计算基尼指数的函数或包,请告诉我。