我正在使用支持向量机进行文本分类,但基本上我对测试集的特征向量计算感到困惑。
对于训练特征向量,我为每个训练数据取 TF-IDF 向量,并使用 TF-IDF 值构建了一个特征矩阵 [docs x terms]。
但是如何计算测试集的特征向量呢?我应该只使用训练集中的 TF-IDF 值来计算它吗?
例如:在特定单词“apple”的训练集中,文档频率为 5。对于测试集,我应该将值 5 用于“apple”吗?还是根据测试集重新计算 TF-IDF?或者更确切地说,我在计算特征向量时走错路了吗?
提前致谢!