我正在使用支持向量机进行文档分类。我为每个文档设置的特征是一个tf-idf向量。我有 M 个文档,每个 tf-idf 向量的大小为 N。给出 M * N 矩阵。
M 的大小只有 10 个文档,tf-idf 向量是 1000 个词向量。所以我的特征远大于文档数量。每个单词也出现在 2 个或 3 个文档中。当我对每个特征(单词)进行归一化时,即 [0,1] 中的列归一化
val_feature_j_row_i = ( val_feature_j_row_i - min_feature_j ) / ( max_feature_j - min_feature_j)
当然,它要么给我0、1。
它给了我不好的结果。我正在使用libsvm,带有rbf 函数C = 0.0312, gamma = 0.007815
有什么建议吗?
我应该包括更多文件吗?或其他功能,如 sigmoid 或更好的归一化方法?