问题标签 [c4.5]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
algorithm - C4.5算法如何处理属性相同但结果不同的数据?
我正在尝试使用 C4.5 算法为学校项目创建决策树。决策树为Haberman's Survival Data Set,属性信息如下。
我们需要实现一个决策树,其中每个叶子都必须有一个不同的结果(意味着该叶子的熵应该为 0),但是有六个实例具有相同的属性,但结果不同。
例如:
C4.5算法在这种情况下做了什么,我到处搜索但找不到任何信息。
谢谢。
r - 与手动参数设置相比,R caret train() 在 J48 上表现不佳
我需要使用 RWeka 的实现 ( )优化 C4.5 算法在我的流失数据集上的准确性。J48()
因此,我使用train()
caret 包的功能来帮助我确定最佳参数设置(对于M和C)。我试图通过手动运行J48()
由 确定的参数来验证结果train()
。结果令人惊讶,因为手动运行的结果要好得多。
这就提出了以下问题:
- 手动执行时哪些参数可能不同
J48()
? - 如何获得
train()
与手动参数设置相似或更好的结果的功能? - 或者我在这里完全错过了什么?
我正在运行以下代码:
使用包 caret 中的 train() 确定具有 J48 的最佳 C4.5 模型:
使用完整数据集“response_nochar”训练模型:
返回预测精度为 0.6055 的 rtrain$finalmodel(以及大小为 3 且有 2 个叶子的树):
大约有。50 种组合,准确度为 0.6055,范围从最终模型的给定值到 (M=325, C=0.1)(中间有一个例外)。
使用 J48 手动尝试参数值:
计算模型:
使用测试数据集进行预测:
模型预测精度为 0.655(以及大小为 25 的树,有 13 个叶子)。
PS:我使用的数据集包含 10000 条记录,目标变量的分布是 50:50。
python - 从一个决策树(J48)分类转换为python中的集成
我想根据论文实现算法的分类。我有一个J48
(C4.5)决策树(下面提到的代码)。我想I_max
在数据集上运行它几次 ( ) 并计算所有集成的 C* = 类成员概率。如本文所述和第 8 页所述。
java - 如何在不为 WEKA 中的实例创建 ARFF 文件的情况下对实例进行预测?
上学期我有一个项目,当给定一组汽车数据时,我必须建立一个模型并使用该模型从用户输入的数据中进行预测(它涉及 GUI 等)。教授介绍了 Weka,但只是以它的 GUI 形式。我正在重新创建项目,但这次是使用 Weka 库。这是有问题的课程:
在我的 getPrediction() 方法中,我有一个简单的示例,用于获取 ARFF 文件中实例的预测。问题是我无法弄清楚如何初始化单个 Instance 对象,然后将我想要进行预测的数据放入“in”该实例中。我查看了 Instance 类的文档,但乍一看什么也没看到。有没有办法手动将数据放入实例中,或者我需要将我的预测数据转换为 ARFF 文件?
python - 是否可以在 scikit-learn 中实现 c4.5 算法?
我在文档中读到 sklearn 对树使用 CART 算法。
是否有要更改的特定属性以使其类似于 c4.5 实现?
r - J48中置信因子的含义
我尝试在 R(C4.5 算法)中使用 RWeka 库中的 J48 分类器。我可以使用 C 参数对这个分类器进行参数化,这意味着“置信因子”。这个值到底是什么意思?我知道更大的价值意味着我相信我的学习集更能很好地代表整个人口,并且算法不太可能被修剪。但它究竟意味着什么?有什么公式可以解释这个值吗?
weka - Weka 中树叶的数量和树的大小是什么意思?
有人能用简单的英语解释一下 Weka 中树叶的数量和树的大小是什么意思吗?我已经制作了我的决策树,这就是我在下面得到的,但我只需要解释这些值的含义。谢谢你。
叶数:49;树的大小:87。
python - ML 决策树分类器仅在同一棵树上分裂/询问相同的属性
我目前正在使用 Gini 和 Information Gain 制作决策树分类器,并根据每次获得最大收益的最佳属性拆分树。但是,它每次都坚持相同的属性,只是简单地调整其question的值。这导致非常低的准确度,通常约为 30%,因为它只考虑了第一个属性。