我有一个由一些文本和数字特征组成的数据集。使用 scikit 的 TfidfVectorizer 解析文本数据后,我如何将这些特征与其他数字特征结合起来,确保它们都处于相同的比例?
代码是这样的(缩写):
import pandas as p
import numpy as np
trframe = p.read_table(train_file)
traindata = list(np.array(trframe)[:, 2]) #textual
traindata_numfeats = list(np.array(trframe)[:, [4, 16, 17, 20, 22]])
tfv = TfidfVectorizer(min_df=3, max_features=None, strip_accents='unicode',
analyzer='word', token_pattern=r'\w{1,}',
tokenizer=tokenizer, ngram_range=(1, 1), use_idf=1,
smooth_idf=1, sublinear_tf=1)
tfv.fit(traindata)
x_all = tfv.transform(traindata) #how to combine x_all with traindata_numfeats?
感谢您的任何意见!