numpy - 将来自 TfIdfVectorizer 的矩阵与 scikit learn 中的另一个矩阵连接和缩放

翻译自：https://stackoverflow.com/questions/19542099 2013-10-23T12:45:23.367

467 次

我有一个由一些文本和数字特征组成的数据集。使用 scikit 的 TfidfVectorizer 解析文本数据后，我如何将这些特征与其他数字特征结合起来，确保它们都处于相同的比例？

代码是这样的（缩写）：

import pandas as p
import numpy as np
trframe = p.read_table(train_file)
traindata = list(np.array(trframe)[:, 2]) #textual
traindata_numfeats = list(np.array(trframe)[:, [4, 16, 17, 20, 22]])
tfv = TfidfVectorizer(min_df=3,  max_features=None, strip_accents='unicode',
                      analyzer='word', token_pattern=r'\w{1,}',
                      tokenizer=tokenizer, ngram_range=(1, 1), use_idf=1,
                      smooth_idf=1, sublinear_tf=1)
tfv.fit(traindata)
x_all = tfv.transform(traindata) #how to combine x_all with traindata_numfeats?

感谢您的任何意见！

numpy - 将来自 TfIdfVectorizer 的矩阵与 scikit learn 中的另一个矩阵连接和缩放

0 回答 0

Related

Reference