1

我有 96 个特征,标签由 1 和 -1 表示,用于输入深度学习模型。

1- PCA

这里的 3 轴代表 3 个第一主成分。蓝云代表标签 1,红云代表标签 -1。

在此处输入图像描述

即使我们可以在视觉上识别出两种不同的云,它们也是粘在一起的。我认为我们可能会因此在训练阶段遇到问题。

2-t-SNE

对于具有 t-SNE 的相同特征和标签,我们仍然可以区分两朵云,但它们又粘在一起了。

在此处输入图像描述 在此处输入图像描述

问题 :

1- 两个点云粘在一起的事实是否会影响训练和测试阶段的准确率百分比?

2-当我们去除红色和蓝色时,不知何故我们只有一朵大云。有没有办法解决两个云“粘在一起”的问题?

4

1 回答 1

1

你所说的粘在一起,意味着在这个空间中,你的数据不是线性可分的。它似乎也不是非线性可分的。我希望使用这些组件,您肯定会获得较差的准确性。

解决问题的方法是更多或不同的数据。你有一些选择。

1)包括更多的主要成分呢?也许,4、5、10 个组件可以解决您的问题。根据您的数据集,这可能不起作用,但这是首先尝试的最明显的事情。

2)您可以尝试替代矩阵分解技术。PCA 不是唯一的。有 NMF、内核 PCA、LSA 等等。哪一个最适合您从根本上取决于您的数据分布。

3) 使用任何其他类型的特征选择。坦率地说,一开始,96 并不多。你打算做深度学习吗?您通常不会将所有 96 个特征都放入深度学习模型中吗?如果需要,除了矩阵分解之外,还有许多其他方法可以进行特征选择。

祝你好运。

于 2018-07-18T02:09:18.150 回答