问题标签 [gini]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 提高我在 Python 中的预测技术的精度
我正在使用以下 Python 代码使用基于熵/基尼指数的决策树根据某些值进行输出预测。我的输入数据包含在文件中:https ://drive.google.com/file/d/1C8GZ2wiqFUW3WuYxyc0G3axgkM1Uwsb6/view?usp=sharing 文件中的第一列“gold”包含我试图预测的输出(T 或 N)。剩余的列代表一些 0 或 1 个数据,我可以使用它们来预测第一列。我正在使用 30% 的测试集和 70% 的训练集。我使用熵或基尼指数获得相同的精度/召回率。T 的精度为 0.80,T 的召回率为 0.54。我想提高 T 的精度,如果 T 的召回率下降,我也可以,我愿意接受这种权衡。我不关心 N 个预测的精度/召回率,我只是想提高 T 的精度,这就是我所关心的。我想提高精度意味着我们应该避免在某些我们不确定的情况下做出预测。怎么做?
algorithm - 未排序输入的基尼系数并行/流式实现
是否有流式实现来计算未排序输入的基尼系数(不要与决策树归纳中使用的基尼杂质混淆)?
目前,我知道基尼系数的两种实现:
- 一个需要排序的输入,基本上首先计算洛伦兹曲线下的面积,然后计算比率
- 另一个需要对所有输入进行所有对比较(无论输入是否排序)
有没有办法避免对输入进行排序以及 n^2 所有对比较?
r - R中权重的广义基尼
我想计算加权广义基尼系数。CRAN 分发具有合适功能的“酸”包。
我在这里想念什么?当权重恒定时,在给定参数 nu = 2 的情况下,weighted.gini 和 sgini 的估计值相等(以获得常规 gini)。当权重不恒定时,它们会有所不同。有什么可疑的事情还是我错过了什么?他们应该是一样的,对吧?
使用 van Kerm 的 STATA sgini 函数进行检查,该函数在酸的文档中被引用,其函数返回预期的相同估计值。
random-forest - 如何获得 ranklib 生成的随机森林模型的特征重要性?
使用ranklib的学习对随机森林进行排名会生成一个类似 xml 的模型。Ranklib 有一个提供特征频率的工具,不一定将其视为特征重要性。
如何获取ranklib 生成的随机森林的Gini 特征重要性或 Gini 指数?如何解析生成的树?
在 Sourceforge 讨论论坛中发现您需要自己解析模型文件。
python - 在同一张图上绘制多个基尼系数
我试图在图表上绘制基尼系数,显示不同变量(GDP_PPP 和 GDP_MER)的不同数据,以显示 gdp 市场汇率与作为国民总收入的 gdp 之间的不平等。我正在努力让两个变量出现在同一个图表上。
下面的代码是我为计算基尼系数函数所做的:
和:
但是我不断收到错误消息:"TypeError: GiniCoeff_plot()
接受 2 个位置参数,但给出了 3 个“
有谁知道我可以如何更改它以便我可以包含这两个变量?任何帮助将不胜感激!
python - 如何正确计算基尼指数?
该函数接收一个列表并计算一个基尼指数。基尼指数的计算方法是用 1 减去每个类别的概率平方和。
如何根据最终结果正确计算?
python - pyspark 中的 GiniSelector ,特征选择
Scikit 学习使用 selectKbest 和 gini 指数。但我使用 pyspark。网上有这个项目在 Scala ( https://github.com/MarcKaminski/spark-FeatureSelection ) 用于特征选择(特别是基尼指数和互信息)。我使用 python,而不是 Scala。可以在我的管道 python 中使用此代码吗?
python - 决策树中的基尼和熵准确度值可以相同吗?
我在 Jupyter 笔记本上编写的代码中创建了一个决策树。(使用基尼系数和熵标准)然后我进行了准确度计算并创建了一份报告。但是,在我的交易中,报告和准确性完全一样。有可能还是什么原因?你能解释一下为什么以及如何?我为 iris 数据集制作了它。有我的代码;
同样对于熵,这也是我的预测函数;
r - R中的决策树没有分裂
我试图将我的数据分成几类,以了解哪些组更有可能成为“默认”。因此我想使用决策树。
我的数据有 809054 个观察值和 8 个变量。如果我只考虑我的数据的一小部分样本(例如 1%),我可以运行代码并且我有我的拆分,问题是当我有我总观察的 70% 时。
我的数据示例:
代码:
由于参数的原因,这会导致一棵巨大的树,有几个分裂。所以我在代码中包含了 maxdepth :
问题是当我这样做时没有分裂:
真的很想得到一些帮助!
谢谢!