我正在处理 rapidminer 中的文本分类。我有单独的测试和训练拆分。我使用 n 折交叉验证将信息增益应用于数据集,但我对如何将其应用于单独的测试集感到困惑?下面附上图片
在图中,我已将用于训练的第一个“Process Documents From Files”的单词列表输出连接到用于测试的第二个“Processed Documents From Files”,但我想将缩减的功能应用于第二个“Process Documents From文件”,它可能应该是从“按重量选择”(缩小尺寸)操作员返回的文件,但它返回的权重我无法提供给第二个“从文件处理文档”。我搜索了很多,但没有找到任何可以满足我需求的东西?
Rapidminer 真的有可能进行单独的测试/训练拆分并应用特征选择吗?
有没有办法将这些权重转换为单词列表?请不要说写在存储库中(我不能这样做)?
在这种情况下,当我有不同的测试/训练拆分并需要应用特征选择时,我将如何确保测试/训练拆分具有相同的维度向量?
我真的被困在里面了,请帮助...