查看 Kaggel 的Job Salary Prediction,我看到了数字特征(如 Category)和文本特征(如 FullDescription)。
我该如何对这些数据进行培训?我考虑过使用TfidfTransformer对文本进行矢量化,但是它创建了许多学习算法(例如RandomForestRegressor)拒绝使用的稀疏矩阵。另外,一旦我有了文本的特征向量,我如何将它与其他特征结合起来?
有关如何处理此类数据的任何指示?
谢谢!
查看 Kaggel 的Job Salary Prediction,我看到了数字特征(如 Category)和文本特征(如 FullDescription)。
我该如何对这些数据进行培训?我考虑过使用TfidfTransformer对文本进行矢量化,但是它创建了许多学习算法(例如RandomForestRegressor)拒绝使用的稀疏矩阵。另外,一旦我有了文本的特征向量,我如何将它与其他特征结合起来?
有关如何处理此类数据的任何指示?
谢谢!