testing - 半监督学习的测试数据

Question

半监督学习使用一组标记数据（L）训练一个模型来预测一组未标记数据（U），然后将新的标记数据（L'）和原始标记数据（L）分组为完整的标记数据数据。

我想问一下如何提取测试数据。

哪一个是对的？

如果测试数据是从(L union L')中提取出来的，结果没有意义，因为L'中的答案可能是错误的……？

==================================================== ======== 编辑新

我还有一个想法......

3.我应该在开始时将标记数据（L）拆分为训练数据（L_train）和测试数据（L_test）。

然后用L_train训练一个模型，用它来预测一组未标记的数据（U），然后对预测结果（L'）和L_train进行分组。

并且，使用 (L_train union L') 训练模型以在 L_test 上进行测试。

1,2,3哪个是对的？感谢您的回复。

score 2 · Accepted Answer

你训练你的分类器L。您可以首先执行交叉验证以适合某些方法参数P。使用参数，您可以从标记的数据P构建模型。然后，您使用该模型来标记未标记的数据。你加入来自（对分配的班级最有信心）的例子。然后你重复这个过程，直到所有的例子都被分类。MLMUUL

-编辑-

我认为最合适的方法是第三种。但是我可能理解不正确，所以就这样吧。

你分裂L到L_train和L_test。你训练你的分类器L_train，你也使用这个分类器来分类U（按照我上面描述的方法）。从标签的联合中U，L_train您构造一个新的分类器，并用它进行分类L_test。这些分类中的差异可用于评估措施（分类准确度，...）。

1 回答 1