0

我有一个非常基本的问题。我有两套文档,一套用于培训,一套用于测试。我想用训练文档训练一个逻辑回归分类器。我想知道我是否做对了。

  1. 首先找到训练文档中所有唯一词的列表,称之为词汇表。
  2. 对于词汇表中的每个单词,在每个训练文档中找到它的 TFIDF。然后将文档表示为这些 TFIDF 分数的向量。

我的问题是: 1. 我如何表示测试文件?比如说,其中一个测试文档在词汇表中没有任何单词。在这种情况下,该文档词汇表中所有单词的 TFIDF 分数将为零。

  1. 我正在尝试使用使用稀疏向量格式的 LIBSVM。对于上述文档的情况,其向量表示中的所有条目都设置为 0,我该如何表示它?
4

1 回答 1

2

您必须存储足够的关于训练语料库的信息,才能对看不见的文档进行 TF IDF 转换。这意味着您将需要训练语料库中术语的文档频率。忽略测试文档中看不见的单词很好。无论如何,您的 svm 不会为他们学习权重。请注意,如果您的训练和测试分布相似,那么在测试语料库中看不见的术语应该很少见。因此,即使删除了一些术语,您仍然有很多术语可以对文档进行分类。

于 2012-12-22T04:28:22.950 回答