machine-learning - 在 RapidMiner 中使用测试数据集

Question

我正在尝试使用训练数据集创建模型，并希望在测试数据集中标记记录。

我在网上找到的所有教程或帮助都包含有关仅对一个数据集（即训练数据集）使用交叉验证的信息。我找不到如何使用测试数据。我试图将结果模型应用于测试集。但是测试集似乎给出了不同的答案。属性比预处理后的训练集。这是一个文本分类问题。

最后我得到一些这样的输出

18.03.2013 01:47:00 Results of ResultWriter 'Write as Text (2)' [1]: 
18.03.2013 01:47:00 SimpleExampleSet:
5275 examples,
366 regular attributes,
special attributes = {
confidence_1 = #367: confidence(1) (real/single_value)
confidence_5 = #368: confidence(5) (real/single_value)
confidence_2 = #369: confidence(2) (real/single_value)
confidence_4 = #370: confidence(4) (real/single_value)
prediction = #366: prediction(label) (nominal/single_value)/values=[1, 5, 2, 4]
}

但我想要的是我所有的例子都被贴上标签。

看来我的测试数据和训练数据有不同的编号。属性，我在日志中看到了许多以下内容。

2013 年 3 月 18 日上午 1:46:41 警告：内核模型：给定的示例集不包含名称为“无线”的常规属性。这可能会导致某些模型出现问题，具体取决于此特定属性。

但是我们如何解决文本分类中的这种我们不知道不知道的问题。of 和属性名称。

有人可以请指点一下。

score 0 · Accepted Answer

您可能使用 Process Documents 运算符来预处理训练集和测试集。这里重要的是这两个运算符的设置相同。要“同步”单词表，即考虑两个单词中的相同单词集，您必须将用于训练的 Process Documents 运算符的单词表（wor）输出连接到用于预处理的 Process Documents 运算符的相应输入端口测试集。

machine-learning - 在 RapidMiner 中使用测试数据集

1 回答 1

Related

Reference