2

因此,假设我有两组不同的功能 A 和 B。我正在尝试确定哪一组功能是最好的。我使用留一法交叉验证作为最终指标,因为我的数据集很小。我正在尝试弄清楚我的实验设置,我正在选择几种方法:

1)将特征集A提供给我的分类器(并可选择运行特征选择)并将特征集B提供给同一分类器(也可选择运行特征选择),然后比较这两个分类器之间的LOOCV错误?

2)将特征集A和B交给分类器,然后确定地运行特征选择,然后根据选择的特征得出更高层次的结论。(例如,如果选择了更多来自 A 的状态,则特征集 A 似乎具有更多的预后价值)

3)我不知道的其他方式

4

2 回答 2

1

在您的方法 1 中,我想知道为什么您对不同的特征使用不同的分类器?我更倾向于您的方法 2。通过在训练过程中保留所有特征,您可能会更好地选择合适的特征,因为不必要特征的权重会衰减。当你有很多特性时它会很好地工作,每个特性都有一点贡献。在这种方法中,还可以添加正则化因子。

于 2013-11-21T00:10:37.620 回答
1

您所描述的标准程序与方法 1 非常相似:

  1. 分别在特征集和上训练同一分类器的两个实例。AB
  2. 使用某种形式的交叉验证来评估每一个,比如 10 倍交叉验证,或者像你一直使用的那样留下一个。

也就是说,如果您不严格限制于功能集,那么您可以使用与您在 2 中描述的方法类似的方法来A xor B获得更好的结果。C

使用留一交叉验证很难相信结果,使用 10 倍可能会更好。这可能是其中一种情况,如果您可以获得更多数据,则可能会有很大帮助,否则您可能无法执行分析。

于 2013-11-21T00:25:54.297 回答