我有一个非常基本的问题。我有两套文档,一套用于培训,一套用于测试。我想用训练文档训练一个逻辑回归分类器。我想知道我是否做对了。
- 首先找到训练文档中所有唯一词的列表,称之为词汇表。
- 对于词汇表中的每个单词,在每个训练文档中找到它的 TFIDF。然后将文档表示为这些 TFIDF 分数的向量。
我的问题是: 1. 我如何表示测试文件?比如说,其中一个测试文档在词汇表中没有任何单词。在这种情况下,该文档词汇表中所有单词的 TFIDF 分数将为零。
- 我正在尝试使用使用稀疏向量格式的 LIBSVM。对于上述文档的情况,其向量表示中的所有条目都设置为 0,我该如何表示它?