问题标签 [c4.5]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
166 浏览

r - 在 R 中实现 C4.5 的集成

我正在寻找一个“投票”分类器,它是通过将训练集拆分为 k 个片段、分别在每个片段上构建 C4.5 树并使用树的多数投票作为输出而获得的。

我必须选择什么型号?(Bagging CART/ Boosted C5.0/ Random Forest 或 Gradient Boosted Machine)以下模型是否适合我的需要,其中试验次数等于 k:

或者我是否必须进行任何更改以满足我的投票需求并将数据库拆分为 k 个片段?我该如何实施?

0 投票
1 回答
4264 浏览

r - 如何在数据集上使用 RWeka 包?

所以我在网上生成了一个随机数据集,我需要在上面应用 C4.5 算法。
我安装了 RWeka 包及其所有依赖项,但我不知道如何执行它。
有人可以帮我提供教程的链接吗?除了 RWeka 文档之外的任何内容。还是 R 中的示例 C4.5 代码以了解其工作原理?
谢谢

0 投票
0 回答
361 浏览

algorithm - C4.5 算法中的数值

阈值 Z:

– 训练样本首先根据所考虑的属性 Y 的值进行排序。这些值的数量是有限的,所以让我们按排序顺序将它们表示为 {v1, v2, ..., vm}。– 任何介于 vi 和 vi+1 之间的阈值将具有相同的效果,将案例划分为属性 Y 的值在 {v1, v2, ..., vi} 的情况和值在 {vi+1, vi+ 的情况2, …, vm}。因此在 Y 上只有 m-1 个可能的分裂,所有这些都应该系统地检查以获得最佳分裂。

通常选择每个区间的中点:(vi+vi+1)/2 作为代表阈值。–C4.5 为每个区间 {vi, vi+1} 选择一个较小的值 vi 作为阈值,而不是中点本身

我只是想知道这是否正确。

可以说我有:

我必须进行 m-1 计算才能找到最佳值,所以

对于每个拆分(例如 65 和 >= 65 、<70 和 >=70 等等)。我必须计算
增益比,并选择给我更高增益的分割。我对吗?

0 投票
1 回答
2468 浏览

algorithm - 减少错误修剪算法

我对此算法有疑问:

我不明白“永久修剪可以最大程度提高验证集准确性的节点”部分。我们应该保留提高准确性的节点并修剪那些增加错误率的节点。我错了吗?

0 投票
0 回答
118 浏览

algorithm - 修剪决策树中的节点

我当然在研究决策算法树,在我的研究中,这篇文章出现在http://www.slideshare.net/aorriols/lecture6-c45上。

如果你去幻灯片 12 右上角,有一个我完全理解的算法。我不明白的是(并且它在任何地方都没有说)当你修剪一个子树时哪个类占据了位置。

在幻灯片 12 中,分类 bad 代替了子树。现在,“坏”是不是最常见的父类????

我希望你能启发我。谢谢

0 投票
1 回答
50 浏览

machine-learning - 根据数据包识别应用程序

是否可以通过分析数据包来识别特定应用程序?如果是,数据包的哪些属性可以帮助唯一地识别应用程序?任何帮助,将不胜感激。

0 投票
1 回答
178 浏览

matlab - 在 Matlab 中绘制带有实例结果的决策树

我在 Weka 中创建了一个决策树。我现在想在 matlab 中计算一个预测(使用这个模型)并在树中很好地可视化结果。但是我还没有找到一个好的方法来绘制树和它上面的实例的结果。

我应该把它画成流程图吗?有开箱即用的方法吗?我可以在 Matlab 中计算 C4.5 并且它是否已经绘制了树?

0 投票
0 回答
1086 浏览

r - R中的信息增益

我发现包用于计算“信息增益”以在 C4.5 决策树中选择主要属性,我尝试使用它们来计算“信息增益”。

但是每个包的计算结果都不同,如下面的代码。

为什么每个包的计算结果不一样?

0 投票
1 回答
1069 浏览

machine-learning - C4.5 决策树算法没有提高准确性

我使用 10 倍交叉验证在 Weka 中运行了 C4.5 Pruning 算法。我注意到未修剪的树比修剪的树具有更高的测试精度。我不明白为什么修剪树没有提高测试准确性的原因?

0 投票
1 回答
3049 浏览

algorithm - c4.5 算法缺失值

C4.5算法如何处理连续区间上的缺失值和属性值?另外,如何修剪决策树?有人可以在一个例子的帮助下解释一下。