machine-learning - 如何在具有单独测试集的 Rapidminer 中应用 InformationGain？

Question

我正在处理 rapidminer 中的文本分类。我有单独的测试和训练拆分。我使用 n 折交叉验证将信息增益应用于数据集，但我对如何将其应用于单独的测试集感到困惑？下面附上图片在此处输入图像描述

在图中，我已将用于训练的第一个“Process Documents From Files”的单词列表输出连接到用于测试的第二个“Processed Documents From Files”，但我想将缩减的功能应用于第二个“Process Documents From文件”，它可能应该是从“按重量选择”（缩小尺寸）操作员返回的文件，但它返回的权重我无法提供给第二个“从文件处理文档”。我搜索了很多，但没有找到任何可以满足我需求的东西？

Rapidminer 真的有可能进行单独的测试/训练拆分并应用特征选择吗？

有没有办法将这些权重转换为单词列表？请不要说写在存储库中（我不能这样做）？

在这种情况下，当我有不同的测试/训练拆分并需要应用特征选择时，我将如何确保测试/训练拆分具有相同的维度向量？

我真的被困在里面了，请帮助...

score 1 · Accepted Answer

在较低的运算符之后立即在.之前Process Documents插入一个新的运算符。使用运算符从运算符复制权重并将其连接到新运算符的输入。Select By WeightApply ModelMultiplyWeight By Information GainSelect By Weight

machine-learning - 如何在具有单独测试集的 Rapidminer 中应用 InformationGain？

1 回答 1

Related

Reference