我正在尝试一些文档分类任务,到目前为止,SVM 在 TF*IDF 特征向量上运行良好。我想合并一些不基于词频的新特性(例如文档长度),看看这些新特性是否有助于分类性能。我有以下问题:
- 我可以简单地将新特征与旧的基于频率的特征连接起来,并在这个异构特征空间上训练一个 SVM 吗?
- 如果不是,多核学习是通过在每个子特征空间上训练一个核并使用线性插值组合它们来实现它的方法吗?(我们仍然没有在 scikit-learn 中实现 MKL,对吧?)
- 还是我应该转向能够很好地处理异构特征的替代学习器,例如 MaxEnt 和决策树?
提前感谢您的友好建议!