1

我想评估我的特征对 3 个类的可分离性,并对其他 2 组特征做同样的事情,并最终证明我的特征提供了最好的可分离性。为了更清楚,我想测量不同类的距离以及每个类的紧凑程度。我发现散点矩阵是一个不错的选择。

我的问题是:

  1. 当数据不是线性可分的/当数据的分布未知或不是高斯分布时(我在某处读到,当数据线性可分或高斯分布时,散布矩阵很有用)时是否可以使用它们。

  2. 这只会给我数字,是否存在一种图形方式来说明可分离性。我的特征是 256-D,有 409 个数据实例。

4

1 回答 1

0

为了评估集群的距离,您可以做一个简单的测试:计算每个集群的平均点并查看这些点之间的距离。这不会告诉您数据是否可分离,或者数据点在集群内的分散程度,但它会给您一些关于正在发生的事情的指示。

关于散点矩阵,它是协方差矩阵的近似值:协方差矩阵(通常您会查看其特征值/向量)描述了一组数据点。您在这里要问的问题是:好的,最大化数据方差并因此携带最多能量的方向是什么。它不关心数据是否线性可分或数据的分布是什么。

我认为没有一种很好的方式来描绘 256 维的数据!但是您可以绘制边距等图表。

希望这会有所帮助,亚历克斯

于 2013-06-12T14:45:53.733 回答