这是一个关于 ngram 线性回归的问题,使用 Tf-IDF(词频 - 逆文档频率)。为此,我使用 numpy 稀疏矩阵和 sklearn 进行线性回归。
使用 unigrams 时,我有 53 个案例和 6000 多个特征。预测基于使用 LeaveOneOut 的交叉验证。
当我创建一个仅包含 unigram 分数的 tf-idf 稀疏矩阵时,我得到的预测比创建 unigram+bigram 分数的 tf-idf 稀疏矩阵时要好一些。我添加到矩阵中的列越多(三元组、四元组、五元组等的列),回归预测的准确性就越低。
这很常见吗?这怎么可能?我会认为功能越多越好。