6

查看 Kaggel 的Job Salary Prediction,我看到了数字特征(如 Category)和文本特征(如 FullDescription)。

我该如何对这些数据进行培训?我考虑过使用TfidfTransformer对文本进行矢量化,但是它创建了许多学习算法(例如RandomForestRegressor)拒绝使用的稀疏矩阵。另外,一旦我有了文本的特征向量,我如何将它与其他特征结合起来?

有关如何处理此类数据的任何指示?

谢谢!

4

1 回答 1

5

我将首先独立地学习每个文本字段的 tf-idf 特征的线性模型,并将线性模型预测作为附加特征添加到其他特征中,并在组合特征上训练ExtraTreesRegressoror 。GradientBoostedTreeRegressor

于 2013-05-30T08:35:03.860 回答