0

我正在处理 rapidminer 中的文本分类。我有单独的测试和训练拆分。我使用 n 折交叉验证将信息增益应用于数据集,但我对如何将其应用于单独的测试集感到困惑?下面附上图片在此处输入图像描述

在图中,我已将用于训练的第一个“Process Documents From Files”的单词列表输出连接到用于测试的第二个“Processed Documents From Files”,但我想将缩减的功能应用于第二个“Process Documents From文件”,它可能应该是从“按重量选择”(缩小尺寸)操作员返回的文件,但它返回的权重我无法提供给第二个“从文件处理文档”。我搜索了很多,但没有找到任何可以满足我需求的东西?

Rapidminer 真的有可能进行单独的测试/训练拆分并应用特征选择吗?

有没有办法将这些权重转换为单词列表?请不要说写在存储库中(我不能这样做)?

在这种情况下,当我有不同的测试/训练拆分并需要应用特征选择时,我将如何确保测试/训练拆分具有相同的维度向量?

我真的被困在里面了,请帮助...

4

1 回答 1

1

在较低的运算符之后立即在.之前Process Documents插入一个新的运算符。使用运算符从运算符复制权重并将其连接到新运算符的输入。Select By WeightApply ModelMultiplyWeight By Information GainSelect By Weight

于 2014-02-18T14:08:07.583 回答