5

我正在使用 scikit-learn 分类器和文本特征提取器,特别是 TfidfVectorizer 类来解决文本分类问题。

问题是我有两种特征,第一种是由从 TfidfVectorizer 获得的 n-gram 捕获的,另一种是我从每个文档中提取的领域特定特征。我需要将每个文档的两个特征组合在一个特征向量中;为此,我需要通过在包含此文档的域特征的每一行中添加一个新维度来更新 TfidfVectorizer 返回的 scipy 稀疏矩阵。但是,我找不到一种简洁的方法来做到这一点,整洁的意思是不要将稀疏矩阵转换为密集矩阵,因为它根本不适合内存。

可能我错过了 scikit-learn 或其他东西的功能,因为我对 scipy 和 scikit-learn 都是新手。

4

1 回答 1

5

我认为最简单的方法是使用您的自定义功能创建一个新的稀疏矩阵,然后用于scipy.sparse.hstack堆叠这些功能。您可能还会发现管道模块中的“FeatureUnion”很有帮助。

于 2013-04-11T12:52:25.783 回答