我正在使用 scikit-learn 分类器和文本特征提取器,特别是 TfidfVectorizer 类来解决文本分类问题。
问题是我有两种特征,第一种是由从 TfidfVectorizer 获得的 n-gram 捕获的,另一种是我从每个文档中提取的领域特定特征。我需要将每个文档的两个特征组合在一个特征向量中;为此,我需要通过在包含此文档的域特征的每一行中添加一个新维度来更新 TfidfVectorizer 返回的 scipy 稀疏矩阵。但是,我找不到一种简洁的方法来做到这一点,整洁的意思是不要将稀疏矩阵转换为密集矩阵,因为它根本不适合内存。
可能我错过了 scikit-learn 或其他东西的功能,因为我对 scipy 和 scikit-learn 都是新手。