algorithm - weka 中可用的哪些算法会自动对数据集的特征进行加权？

Question

我有一个包含 5 到 10 个特征的数据集。输出值是一个标量值。（所以我看起来像线性回归，而不是分类器）。一些特征比其他特征更重要，一些特征组合可以产生很大的结果。

考虑到这些要求，Weka 中内置的哪些算法是很好的候选者？

score 4 · Accepted Answer

您是否尝试过 Weka Explorer 中的“选择属性”选项卡？InfoGainAttributeEval 和 CorrelationAtrributeEval 是我通常开始使用的两种有用的特征选择方法。

这是 InfoGainAttributeEval 针对我的数据集的示例输出。第一列按降序列出每个属性的重要性。

Ranked attributes:
0.02416    8 attr8
0.014166  16 attr16
0.012868  14 attr14
0.011905  15 attr15
0.011624   6 attr6
0.010619   1 attr1
0.010367   3 attr3
0.010171   5 attr5
0.008921   7 attr7
0.008763  11 attr11
0.006094   9 attr9
0.00603   10 attr10
0.003089   4 attr4
0.00095   12 attr12
0.000672   2 attr2
0.000127  13 attr13

Selected attributes: 8,16,14,15,6,1,3,5,7,11,9,10,4,12,2,13 : 16

如果您有兴趣，请参阅以下链接以获取有关基于相关性的特征选择的经典论文： http ://www.cs.waikato.ac.nz/~mhall/thesis.pdf

score 1 · Accepted Answer

Weka 有一组Classifier执行回归的“”（它们在 Weka 术语中输出一个数字“类”）。在 Weka GUI 中，如果您选择数字属性作为“类”，您将看到它们。

其中是weka.classifiers.functions.SimpleLinearRegression，它完全按照它所说的那样做。Weka 还有更复杂的回归引擎，例如MultilayerPerceptron.

algorithm - weka 中可用的哪些算法会自动对数据集的特征进行加权？

2 回答 2

Related

Reference