问题标签 [c4.5]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 可以处理 NA 的 R 包/模型
我正在寻找可以处理 NA 的 R 包或机器学习模型/算法(如randomForest
、glmnet
、gbdt
等),而不是忽略具有任何 NA 实例的行或列。我不想推卸责任。有什么建议么?
hadoop - 在 Hadoop 上并行实现决策树 ID3/C4.5
我想ID3/C4.5
在Hadoop
. 任何人都可以通过想法如何继续。
我对算法很清楚,但我需要知道如何并行化它们。
.net - How does the C4.5 Algorithm handle continuous data?
I am implementing the C4.5 algorithm in .net
, however I don't have clear idea of how it deals "continuous (numeric) data". Could someone give me a more detailed explanation?
algorithm - C4.5 选择连续属性的分割点(阈值)
使用“打高尔夫球”或“打球”数据(列在底部),选择根节点,我们查看 Outlook、温度、湿度和风,看看哪个具有最高的 GainRatio。
现在,Outlook 将被选为 GainRatio 最高的属性。但是,我很困惑 Humidity (连续属性)选择了具有GainRatio=0.1087的分割点80,而65具有更高的GainRatio=0.1285。分割点 80 确实具有较高的增益,但没有增益比率。
我看过文献粗略地说“选择连续属性的分裂点作为获得最大收益的那个”......这对我来说似乎违反直觉,分裂点仅基于增益,而不是在比较所有属性时选择最高的 GainRatio 作为下一个决策节点。
我希望在这里得到一些澄清。
谢谢。
计算如下:
展望:
增益 = 0.2467
SplitInfo = 1.5774
增益比 = 0.1564
温度:
增益 = 0.0292
SplitInfo = 1.5566
增益比 = 0.0187
湿度:
可能的分割点 = { 65, 70, 75, 78, 80, 85, 90, 95, 96 }
拆分 65:
增益 = 0.0477
拆分信息 = 0.3712
增益比 = 0.1285
拆分 80:
增益 = 0.1022
拆分信息 = 0.9402
增益比 = 0.1087
风:
增益 = 0.0481
拆分信息 = 0.9852
增益比 = 0.0488
数据:
java - 使用 J48 算法生成决策树
我想使用 NetBeans 和 WEKA 库创建一个 GUI。一个按钮用于上传包含数据的 arff 文件,另一个按钮用于使用 J48 算法生成决策树。所有在线教程都展示了如何使用 WEKA 资源管理器进行生成,但如何在我们的 GUI 中执行此操作?
java - 如何在 c45 中生成混淆矩阵?
我正在尝试在 Map Reduce 上实现 c45 算法,这里的代码在给定一些训练数据的情况下只生成一个规则集。
该类包含主要方法。
该类用于计算增益比。
此映射器类检查此实例是否属于当前节点。对于所有未发现的属性,它输出索引及其值和实例的类标签。
此类计算(索引及其值和类标签)组合的出现次数并针对它打印计数。
此类拆分属性
输入的训练数据集看起来像这样->
machine-learning - 使用 C4.5 技术处理缺失值
我正在尝试使用一些分类技术构建分类器“模型”。从 C4.5 技术开始,面临缺失值的问题:
如何处理数据集中存在的缺失值?
我应该留在“吗?” 在缺少的属性?
weka - 具有非线性可分数据的 WEKA J48 决策树
Weka J48 决策树分类器是否支持对本质上非线性可分数据的问题进行分类?简而言之,J48 是线性分类器还是非线性分类器?
python - 我正在寻找 Orange 中的特定算法
我在课堂上学习数据挖掘,但在使用 Orange 库时遇到了问题。我从 Weka 来到 Orange 并试图找到 J4.8 和 C4.5 算法,但我找不到它们列出。
谷歌搜索将我带到一个页面,该页面说它具有算法(http://docs.orange.biolab.si/widgets/rst/classify/c45.html),但我仍然找不到它们。我正在使用 Python 2.7。它兼容还是我必须写它们?
谢谢
tree - 仅使用显着属性,还是在检查信息增益后使用全套属性构建 J48 模型?
Weka 的 J48 允许检查一组完整属性的信息增益,我应该使用这些重要属性来构建我的模型吗?或者我应该使用全套属性吗?