-1

我打算做一个是/否分类器。问题是数据不是来自我,所以我必须使用我得到的东西。我有大约 150 个样本,每个样本包含 3 个特征,这些特征是连续的数值变量。我知道数据集很小。我想问你两个问题:

A)什么是最好的机器学习算法?支持向量机?神经网络?我读过的所有内容似乎都需要一个大数据集。

B)我可以通过添加一些不包含所有特征的样本来使数据集更大一点,只有一两个。我读过你可以在这种情况下使用稀疏向量,这对每个机器学习算法都可行吗?(我在 SVM 中见过它们)

非常感谢你的帮助!!!

4

2 回答 2

1

我的建议是使用简单直接的算法,例如决策树逻辑回归,尽管您所指的算法应该同样有效。

鉴于您的样本比变量多得多,因此数据集大小应该不是问题。但是拥有更多数据总是有帮助的。

于 2017-05-26T17:58:17.127 回答
-1

对于训练示例很少的情况,朴素贝叶斯是一个不错的选择。与逻辑回归相比,Ng 和 Jordan 表明,朴素贝叶斯通过更少的训练示例更快地收敛到其最佳性能。(请参阅本书章节的第 4 节。)通俗地说,朴素贝叶斯模型在这种情况下表现更好的联合概率分布。

在这种情况下不要使用决策树。决策树有过度拟合的倾向,当训练数据很少时,这个问题会更加严重。

于 2017-05-26T22:14:08.957 回答