3

半监督学习使用一组标记数据(L)训练一个模型来预测一组未标记数据(U),然后将新的标记数据(L')和原始标记数据(L)分组为完整的标记数据数据。

我想问一下如何提取测试数据。

  1. 我应该从 (L union L') 中提取测试数据
  2. 我应该从 (L) 中提取测试数据

哪一个是对的?

如果测试数据是从(L union L')中提取出来的,结果没有意义,因为L'中的答案可能是错误的……?

==================================================== ======== 编辑新

我还有一个想法......

3.我应该在开始时将标记数据(L)拆分为训练数据(L_train)和测试数据(L_test)。

然后用L_train训练一个模型,用它来预测一组未标记的数据(U),然后对预测结果(L')和L_train进行分组。

并且,使用 (L_train union L') 训练模型以在 L_test 上进行测试。

1,2,3哪个是对的?感谢您的回复。

4

1 回答 1

2

你训练你的分类器L。您可以首先执行交叉验证以适合某些方法参数P。使用参数,您可以从标记的数据P构建模型。然后,您使用该模型来标记未标记的数据。你加入来自(对分配的班级最有信心)的例子。然后你重复这个过程,直到所有的例子都被分类。MLMUUL

-编辑-

我认为最合适的方法是第三种。但是我可能理解不正确,所以就这样吧。

你分裂LL_trainL_test。你训练你的分类器L_train,你也使用这个分类器来分类U(按照我上面描述的方法)。从标签的联合中UL_train您构造一个新的分类器,并用它进行分类L_test。这些分类中的差异可用于评估措施(分类准确度,...)。

于 2012-11-20T09:51:11.110 回答