machine-learning - 在向量空间模型中表示文档

Question

我有一个非常基本的问题。我有两套文档，一套用于培训，一套用于测试。我想用训练文档训练一个逻辑回归分类器。我想知道我是否做对了。

首先找到训练文档中所有唯一词的列表，称之为词汇表。
对于词汇表中的每个单词，在每个训练文档中找到它的 TFIDF。然后将文档表示为这些 TFIDF 分数的向量。

我的问题是： 1. 我如何表示测试文件？比如说，其中一个测试文档在词汇表中没有任何单词。在这种情况下，该文档词汇表中所有单词的 TFIDF 分数将为零。

我正在尝试使用使用稀疏向量格式的 LIBSVM。对于上述文档的情况，其向量表示中的所有条目都设置为 0，我该如何表示它？

score 2 · Accepted Answer

您必须存储足够的关于训练语料库的信息，才能对看不见的文档进行 TF IDF 转换。这意味着您将需要训练语料库中术语的文档频率。忽略测试文档中看不见的单词很好。无论如何，您的 svm 不会为他们学习权重。请注意，如果您的训练和测试分布相似，那么在测试语料库中看不见的术语应该很少见。因此，即使删除了一些术语，您仍然有很多术语可以对文档进行分类。

machine-learning - 在向量空间模型中表示文档

1 回答 1

Related

Reference