3

我需要创建一个堆栈器集合,我是否将每个分类器输出的准确率汇总百分比与一个新分类器结合起来

贝叶斯

Result = 0.61% accuracy

K-NN (k = 5)

Result = 0.63% accuracy

K-NN (k = 10)

Result = 0.64% accuracy

决策树

Result = 0.60% accuracy

逻辑回归

Result = 0.62% accuracy

对这 5 个百分比进行分类?

还是我需要结合许多预测的输出,例如表格:

NB   k = 5  k = 10  dectree   Logistic   TrueLabel    
bob    1      1      bob       FALSE       bob
bob    2      2      john      TRUE        john
bob    1      1      bob       TRUE        bob

如果采用这种方式,那么输出是否不同 IE 是否都应该是 bob 或 john 而不是 true 或 false 或 1 或 2 是否重要?

我应该使用什么分类器将它们与它们结合起来?

4

1 回答 1

1

为了创建堆叠合奏,您需要使用您在问题末尾创建的表格,即:

NB   k = 5  k = 10  dectree   Logistic   TrueLabel    
bob    1      1      bob       FALSE       bob
bob    2      2      john      TRUE        john
bob    1      1      bob       TRUE        bob

“他们都应该是 bob 还是 john 而不是 true 或 false 或 1 或 2”的答案?是它取决于您将用于组合各个模型的模型。大多数模型都在r处理因素,在这种情况下让它们保持原样就可以了。确保您的第一列和第二列(具有数值)也被视为因素,否则它们将被视为数字并且您不希望这样(许多模型会从一个因素中创建虚拟变量,如果您的列是数字那么这不会发生)。总结以上所有列的这个使用因子,但请阅读组合模型的文档(稍后会介绍此信息)以查看它是否接受因子作为输入。

对于另一个关于您需要使用什么模型来组合输入的问题,答案是:'any model you like'。通常的做法是使用简单的逻辑回归,但这不会阻止您选择您喜欢的任何其他东西。这个想法是使用您的原始变量(用于训练单个模型的变量)加上您创建的上表(即单个模型的预测),看看新的准确性是否会比单个模型更好。在新的组合模型中,您仍然可以使用前向或后向选择等特征消除技术来删除无关紧要的变量。

我希望这回答了你的问题。

于 2015-04-18T16:13:58.543 回答