我正在尝试将一些文档分为两类,其中我使用 TfidfVectorizer 作为特征提取技术。
输入数据由包含大约十几个浮点数据字段、标签和文档正文的文本块的数据行组成。为了使用主体,我应用了 TfidfVectorizer 并得到了一个稀疏矩阵(我可以通过 toarray() 转换为数组来检查它)。这个矩阵通常非常大,成千上万的维度——我们称之为 F,它的大小为 1000 x 15000。
为了在 Scikit 中使用分类器,我给它一个输入矩阵 X,它是(行数 * 特征数)。如果我不使用身体,我可能有一个大小为 1000 x 15 的 X。
这就是问题所在,假设我将这个 F 水平叠加到 X 上,所以 X 将变为 1000 x 15015,这引入了一些问题: 1)现在前 15 个特征将发挥很小的作用;2)内存不足;
Scikit 提供了一个示例,其中仅使用 TfidfVectorizer 输入,但没有说明如何将它与元数据一起使用。
我的问题是:如何将 TfidfVectorizer 输出与元数据一起用于训练分类器?
谢谢你。