我正在尝试对包含离散和连续特征的示例进行分类。此外,该示例表示稀疏数据,因此即使系统可能已经针对 100 个特征进行了训练,该示例也可能只有 12 个。
用于完成此任务的最佳分类器算法是什么?我一直在研究 Bayes、Maxent、Decision Tree 和 KNN,但我不确定它们是否完全符合要求。我发现最大的症结在于大多数实现不支持稀疏数据集以及离散和连续特征。任何人都可以推荐符合这些标准的算法和实现(最好是在 Python 中)吗?
到目前为止我看过的图书馆包括:
我正在尝试对包含离散和连续特征的示例进行分类。此外,该示例表示稀疏数据,因此即使系统可能已经针对 100 个特征进行了训练,该示例也可能只有 12 个。
用于完成此任务的最佳分类器算法是什么?我一直在研究 Bayes、Maxent、Decision Tree 和 KNN,但我不确定它们是否完全符合要求。我发现最大的症结在于大多数实现不支持稀疏数据集以及离散和连续特征。任何人都可以推荐符合这些标准的算法和实现(最好是在 Python 中)吗?
到目前为止我看过的图书馆包括:
Weka (Java) 满足您的所有要求:
查看这个Pentaho wiki以获取文档、指南、视频教程等的链接列表......
scikit-learn是一个 Python 机器学习模块,支持稀疏数据的随机梯度下降和支持向量机。