问题标签 [information-gain]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 计算信息增益率
我正在寻找一段在 R 或 Python 中执行信息增益比 (IGR) 的代码。我找到了一个方便的 R 包,但它没有得到维护,并且已从 CRAN 中删除。但是,我找到了一些旧版本,我冒昧地“借用”了关键功能。我做了一些更改,还添加了一些新功能。算法期望两个线索/特征及其(共)出现和事件总数的 2x2 矩阵。它返回两个 IGR,每个提示/特征一个。
但是,我认为它没有得到很好的优化,我想学习更好的实现方式。特别是,我认为必须有一种方法可以使函数 cueRE 和 getIGRs 更好。下面,是一个例子和功能。
我将不胜感激任何建议和评论。非常感谢!
这将用作
classification - 数据挖掘中信息增益所隐含的实际意义是什么?
信息增益可以通过上式求得。但我不明白的是,这个信息增益究竟是什么意思?这是否意味着通过根据给定属性或类似的东西进行拆分可以获得或减少了多少信息???
math - 信息增益与最小化熵
在什么情况下最大化信息增益不等于最小化熵?更广泛的问题是为什么我们需要信息增益的概念?仅使用熵来决定决策树的下一个最优属性是否还不够?
machine-learning - 如何计算以下数据集的信息增益?
在了解信息增益计算的同时 - 人群中患癌症的概率为 1%。癌症检测以 50% 的概率正确识别癌症患者,以 99.5% 的概率正确识别非癌症患者。现在我必须计算使用此癌症测试获得的信息增益?这是我在学习熵和信息增益时试图解决的练习题之一。编辑-我上面计算的尝试是-
如果我们将总人口视为 100 -
Cancer patient =1
Non-cancer patient = 99
Entropy H = -1/100 log(1/100)- 99/100 log(99/100)
现在对癌症患者的测试给了我 - 50% 的癌症患者和 50% 的非癌症患者。因此分类为癌症患者的熵-
非癌症患者它给了 99.5% 的非癌症患者和 0.5% 的癌症。因此信息增益应该是。对非癌症患者的分类熵是 -
H2 = -(99.5*99/100)log(99.5*99/100) - (5/100)*99 log(5/100*99)
我想知道测试后获取熵的正确方法。如果这是正确的,可以计算信息增益 -
machine-learning - 什么是 Weka 的 InfoGainAttributeEval 公式,用于评估具有连续值的熵?
我正在使用 Weka 的信息增益属性选择功能,并试图弄清楚 Weka 在处理连续数据时使用的特定公式。
我了解熵的常用公式是当数据中的值是离散的时。我知道在处理连续数据时,可以使用微分熵或离散化值。我尝试查看 Weka 对InfoGainAttributeEval的解释,并查看了许多其他参考资料,但找不到任何东西。
也许只有我一个人,但有人知道 Weka 是如何实现这个案例的吗?
谢谢!
decision-tree - Azure 机器学习决策树熵/信息增益
在 Azure ML 中训练决策树时,是否可以查看每个功能的熵/信息增益?
r - 如何计算R中给定术语和类之间的互信息?
N
给定具有以下格式的行的输入文件:
该class
字段只有两个值 [0,1](即两个类)
该text
字段由一组空格分隔的术语组成。
如何使用 R 计算数据集中每个唯一项与每个类之间的互信息。
r - 为什么gain.ratio给出NaN?
我正在尝试检查特征选择的属性,为此我应用了 information.gain 、 gain.ratio 和 chi-squared 但是一些属性给出了 NaN 或 0.0000000 的值。
增益比是
卡方给出
一些显示数据的记录(我想添加图像,但网站不允许我添加图像)
是否可以将 NaN 作为结果,因为它对我来说似乎不正确。属性也可以是 1,就像卡方中的日期一样?
decision-tree - 计算特定属性的熵?
这非常简单,但我正在学习决策树和 ID3 算法。我找到了一个非常有帮助的网站,我一直在关注有关熵和信息增益的所有内容,直到我开始
我不明白如何计算每个单独属性(晴天、有风、下雨)的熵——特别是如何计算 p-sub-i。它似乎与计算熵(S)的方式不同。谁能解释这个计算背后的过程?
r - 如何通过使用 R 语言中的 FSelector 信息增益设置阈值来仅选择最佳特征?
我已经通过在 R 中使用 FSelector 包在 R 中完成了信息增益特征选择
现在,我需要根据attr_importance 从中选择最佳功能。如何根据阈值选择R中的最佳特征以及如何设置阈值?