1

我试图确定单个变量在 LMT(逻辑模型树)DT(决策树)的 WEKA 实现中的重要性。

我想知道每个单独变量在分类任务中的贡献,因此需要确定每个单独变量的重要性。这是为了对我的结果进行更深入的分析。

我已经查看了“选择属性”选项卡和相应的算法(即主成分、信息增益、排名器等);但是,这些算法提供了有关哪些组合或变量等级将有助于最好(或最有效或最快,取决于您的最终目标,分类器)的信息。

但是,我对排名或选择最重要的变量不感兴趣。我有兴趣确定每个变量对我的 DT 的最终分类分数有多大贡献(例如以百分比形式)。

我已经考虑一个一个地删除每个变量以确定分数如何变化;但我不确定这是否可以手动完成,因为最终分数可能取决于一些潜在的相关性,这就是为什么我想将所有变量一起使用(即使一个变量的贡献为零)做出此决定。

所以,问题是:有没有办法测量分类器中使用的每个单独变量的贡献(即使该贡献为零)?

提前感谢您的任何帮助。

4

1 回答 1

1

以下是一些询问和研究的答案。事实是信息增益不是概率。此属性选择器的结果仅提供有关特征有助于“纯”分类的信息量的信息(整数 (0-1))。

例如,InfoGain 值为 1 的特征意味着该特征中的所有可用信息都有助于分类,但这并不意味着仅使用该提示就能够进行整个分类。

在许多情况下,分类是不同特征相关性的结果(至少在我使用决策树的经验中)。因此,分析每个决策到达分类的路径是通过其相关性检测线索贡献的一种方法。信息增益算法将每个特征或属性评估为一个单独的实体,而不考虑与它结合以决定类成员资格的其他属性。

于 2013-03-07T12:17:44.290 回答