自组织地图据称能够在较小的维度空间上可视化/聚类高维数据。我在理解这句话时有些困难。
考虑一个六维数据集,码本向量/参考向量也是六维的。根据 SOM 算法,这些参考向量的更新也是在六维向量空间中进行的。如果我们在考虑一个二维映射,我应该如何理解六维数据空间和二维映射空间之间的映射?
自组织地图据称能够在较小的维度空间上可视化/聚类高维数据。我在理解这句话时有些困难。
考虑一个六维数据集,码本向量/参考向量也是六维的。根据 SOM 算法,这些参考向量的更新也是在六维向量空间中进行的。如果我们在考虑一个二维映射,我应该如何理解六维数据空间和二维映射空间之间的映射?
N 维输入空间和 2D SOM 空间之间的映射是一个非线性投影,尽可能多地保留拓扑。
这意味着在此过程中丢失了有关距离和角度的信息,但保留了点之间的邻近关系(即在输入空间中彼此靠近的 2 个点在 SOM 空间中应该靠近)。
我对“SOM 做什么?”有最好的了解。通过在3D RGB 颜色空间上使用它:在这种情况下,SOM 的工作可以很容易地可视化,并且应该有助于掌握这个概念。
2D 自组织图 (SOM) 将输入向量分布到 2D 平面上。在数学上,SOM 是一个 3D 矩阵,第三维的长度由输入数据的长度给出。为了可视化 SOM,通常需要计算 U 矩阵。U 矩阵为 SOM 的每个神经元提供所考虑的神经元与其邻居之间的平均欧几里得距离。
生成的 2D 矩阵允许将高维空间可视化到 2D 平面上。高值在下图中表示为深蓝色山谷的集群之间的障碍:
这个 U 矩阵来自对这个 3D 数据集的学习:
这里是 3D 原始空间中的 U 矩阵:
您无法理解它,但可以使用它,因此您可以尝试将其视为离散函数,例如可以将 4d 向量空间映射到 1d 向量。最重要的是您的函数是某种递归。例如,L 系统大量使用递归或重复。可以在 Nick 的空间索引希尔伯特曲线博客中找到关于怪物曲线的更好描述。