问题标签 [gini]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql-server - 带有 OVER 语句的复杂 GROUP BY 的 SQL 语法:计算多个集合的基尼系数
#cits
我想计算多个集合的基尼系数,这些集合包含在一个包含值和集合 ID的两列表(此处称为)中。我一直在尝试不同的基尼系数计算,在此处(StackExchange 查询)和此处(StackOverflow question with some good reply)进行了描述。这两个例子都只计算一个表的一个系数,而我想用一个GROUP BY
子句来做。
该#cits
表包含两列,c
和cid
,分别是 value 和 set-ID。
这是我目前的尝试(不完整):
当然,选择 numC 和 totalC 效果很好,但下一行让我头疼。我可以看到语法是错误的,但我不知道如何为row_number()
每个 cid 分配每个 c。
编辑:根据建议,我使用了partition
,如下所示:
这几乎可以工作。我得到了一个结果,但它>1,这是出乎意料的,因为基尼系数应该在 0 和 1 之间。如评论中所述,我也更喜欢单查询解决方案,但它不是根本问题。
r - Rpart拆分错误:Agument拆分不匹配
我想将rpart
函数中的拆分方法从“gini”(默认)更改为“信息”。
在帮助部分我们有这个例子:
在method
参数详细信息中,我们有:“或者,方法可以是名为 init、split 和 eval 的函数列表。示例在源文件中的“tests/usersplits.R”和小插图“用户编写的拆分函数”中给出
并在parms
参数详细信息中:“分裂指数可以是gini或信息。默认先验与数据计数成正比,损失默认为1,分裂默认为gini。”
当我尝试创建模型时:
我发现这个(以及大部分)R 帮助部分不是很清楚。显然我没有信息选项。我应该在之前定义拆分函数然后构建我的模型吗?或者也输入概率向量?如何使用示例中的信息?
r - 基尼系数的变量重要性/平均下降如何>.5?
我目前正在做一个使用随机森林的项目。我想知道所有协变量的特征重要性并想MeanDecreaseGini
用于此。
我真的不明白为什么会有大于 0.5 的值。基尼指数不能大于 0.5,所以下降也不应该是这样。当您对森林中使用特定协变量的节点中的所有值进行平均时,Gini 的平均减少量不能大于 0.5。谁能说,我的思维错误在哪里?
这是一个结果MeanDecreaseGini
远大于 0.5 的代码示例:
r - R中的基尼指数
我正在尝试计算数据库每一行的基尼指数。每行是一个客户,每列是每月一次。所以我需要做的是在 12 个月内为每个客户逐行添加一个带有 Gini 索引的列。 见附件示例
我在网上找到了一些例子并这样做了:
但是,我收到以下错误:
match.fun(FUN) 中的错误:找不到对象“gini”
我已经安装了 Ineq 和 Reldist(以及库),所以我不知道为什么这不起作用。
python - 如何在 sklearn 中获得基尼系数
我想在 sklearn 包中,找到一类路径上每个特征的基尼系数,例如在 iris 数据中。如 Iris-virginica 花瓣长度 gini:0.4 ,花瓣宽度 gini:0.4。
python-3.x - 在张量流中计算基尼指数
我正在尝试将基尼指数计算写成张量流成本函数。基尼指数为: https ://en.wikipedia.org/wiki/Gini_coefficient
一个 numpy 解决方案是
有人可以帮我弄清楚如何在 tf 中执行此操作(例如,在 tf 中,没有 argsort 可以成为区分函数的一部分,AFAIK)
python-3.x - Keras中的自定义损失函数,如何处理占位符
我正在尝试在 TF/Keras 中生成自定义损失函数,如果它在会话中运行并传递常量,则损失函数可以工作,但是,当编译成 Keras 时它会停止工作。
成本函数(感谢 Lior 将其转换为 TF)
这将打印 -0.62962962963,这是正确的值。
现在让我们把它放到 Keras MLP 中
这会产生错误
我尝试通过给出默认值 n/etc 来绕过它,但这似乎没有任何进展。
有人可以解释这个问题的性质以及我该如何解决吗?
谢谢!
编辑:
更新了一些东西以保持它为张量,然后投射
用作成本函数时仍然存在“无”的问题
formula - fastgini中基尼系数的计算公式
我使用fastgini
Stata 的包(https://ideas.repec.org/c/boc/bocode/s456814.html)。
我熟悉 Karagiannis & Kovacevic (2000) ( http://onlinelibrary.wiley.com/doi/10.1111/1468-0084.00163/abstract )中报告的基尼系数经典公式
公式一:
这里 G 是基尼系数,μ 是分布的平均值,N 是样本量,y_i 是第 i 个样本单元的收入。因此,基尼系数计算数据中所有可用收入对之间的差异,并计算所有绝对差异的总和。
然后通过将其除以人口平方乘以平均收入(并乘以 2?)来标准化这个总数。
基尼系数介于 0 和 1 之间,其中 0 表示完全平等(所有人的收入都相同),1 表示最大不平等(1 人获得了该国的所有收入)。
但是,该fastgini
软件包引用了一个不同的公式(http://fmwww.bc.edu/repec/bocode/f/fastgini.html):
公式二:
其中观察按 X 的升序排序。
这里 W 似乎是我不使用的重量,因此它应该是 1(?)。我不确定公式 I 和公式 II 是否相同。没有绝对差异,结果从公式 II 中的 1 中减去。我试图转换方程,但我没有得到任何进一步的信息。
有人可以提示我两种计算方式(公式 I + 公式 II)是否等效?
python - 如何在张量流中计算归一化基尼系数
我正在尝试在 tensorflow 中计算归一化基尼系数,但我无法这样做。我在 numpy 中执行了相同的以下 python 代码,但我想使用 tensorflow 来实现它。如果有任何想法,请帮助。 我将实际使用张量形状 (1,?) 并预测张量形状 (1,?)
蟒蛇代码:
r - 传送包装中的调查设计问题
我有一些问题,可能很简单,但到目前为止我还没有弄清楚。
所以我有一个调查设计如下:
它与包调查中的 svyby、svyquantiles 等完美配合,例如:
现在我需要使用传送包计算基尼指数和其他复杂的调查测量,例如广义熵和分解(svygei,svygeidec)。
所以,我从最简单的计算开始测试,即:
最后一行返回错误:
UseMethod(“svygini”,设计)中的错误:
没有适用于“svygini”的方法应用于“c('convey.design','svyimputationList')”类的对象
因此我的问题是如何纠正它?