我有 200 个样本,每个样本都有 60 个特征。我使用 PCA 来查找主成分。我用了神经网络,也尝试了k近邻,但是分类结果并不好。我不介意取出一些样本,但我怎么知道哪些样本破坏了我的分类结果?我知道我可以一一尝试,但它会非常无效。请帮忙
问问题
59 次
2 回答
1
而不是扔掉一些样本,你需要扔掉一些属性。
PCA 计算具有 dxd 个条目的矩阵。在 60 个属性中,这个矩阵有 3600 个条目。你只有 200 个样本来计算这个矩阵的内容——难怪结果几乎是随机的。您需要更少的变量和更多的数据。
于 2012-07-13T12:32:56.700 回答
0
这是一个经典的机器学习问题。只有 200 个样本,如此多的特征(在您的情况下为 60 个)总是存在风险。请检查您是否有多余的功能。让我举个例子吧
想象一下,我们必须从以下特征来预测房价 1. 面积(平方米) 2. 卧室数量 3. 房屋年龄 4. 面积(英尺)2
请注意,这里的 2 号和 4 号特征都提供了相同的信息,并且它们是多余的。起初它看起来并不那么令人不安。但是,如果您有这样的数据,最好删除这些功能。
因此,我建议您先查看功能,然后再查看数据。有关更多详细信息,您可以在 coursera 中查看斯坦福大学的机器学习课程(由 Ng 教授教授)
于 2012-07-13T09:05:23.320 回答