optimization - 如何识别WEKA中的相关特征？

Question

我想在 WEKA 中进行特征分析。我有一个包含 8 个特征和 65 个实例的数据集。

我想执行可用于 SVM 等机器学习方法的特征选择和优化功能。例如，在 Weka 中，我想知道如何显示哪些特征对分类结果贡献最大。

我认为 WEKA 提供了一个很好的图形用户界面，并允许对单个特性的影响进行非常详细的分析。但我不知道如何使用它。有什么帮助吗？

score 3 · Accepted Answer

你有两个选择：

您可以使用过滤器执行属性选择。例如，您可以将AttributeSelection选项卡（或过滤器）与搜索方法Ranker和属性评估指标一起使用InfoGainAttributeEval。这样，您就可以根据其信息增益分数获得最具预测性的特征的排名列表。我已经做了很多次了，效果很好。有时它甚至有助于提高支持向量机的准确性，众所周知，支持向量机不需要（太多）特征选择。您可以尝试使用其他搜索方法来查找耦合预测变量的子组以及其他指标。
您可以只查看 SVM 输出中的系数。例如，在线性 SVM 中，分类器是一个类似于的多项式a1.f1 + a2.f2 + ... + an.fn + fn+1 > 0，是ai实例的属性值，以及fi在 SVM 训练算法中获得的“权重”。结果，那些值接近的权重0表示的属性不算太多，因此是不好的预测器；极端权重（正面或负面）代表良好的预测指标。

此外，您可以检查可用于特定分类器的可视化选项（例如，J48 是决策树，根测试中使用的属性是最佳预测器）。您也可以检查AttributeSelection选项卡可视化选项。

1 回答 1