machine-learning - SVM如何计算文档分类中测试文档的tf-df？

Question

在我的 SVM 中，我在文档上使用 tf-idf 进行特征提取。这些 tf-idf 是在整个训练文档上计算的。

现在，当我得到一个要分类的测试文档时，如何为它生成向量？

我在计算 tf-idf 之前使用了词干提取。我也可以在测试文档上执行该操作。我有 count_of_words 用于火车文件。

我应该增加训练文档 count_of_words 中的单词数来计算测试文档的 tf-idf 还是应该直接使用它？

score 3 · Accepted Answer

以与训练期间相同的方式计算它们，但：使用基于训练文档的 idf 和来自测试文档的 tf。如果你有很多新文档进来，只需不时更新训练数据并重新训练你的模型。

1 回答 1