0

给定 N 维空间中的一些 x 数据点,我试图找到一个可以描述这些 x 点的任何子集的固定长度表示?例如,s 子集的均值可以描述该子集,但它不是仅对该子集唯一的,也就是说,空间中的其他点可以产生相同的均值,因此均值不是唯一标识符。谁能告诉我一个可以描述点而不依赖于点数的独特度量?

4

2 回答 2

0

简而言之-这是不可能的(因为您将实现无限的无噪声压缩)。您必须具有不同的长度表示(或长度与最大点数成比例的固定长度)或处理“碰撞”(因为您的映射不会是单射的)。在第一种情况下,您只需存储每个点的坐标。在第二个中,您使用越来越复杂的描述符来近似您的点云以平衡碰撞和内存使用,一些可能性是:

  • 存储均值和协方差(因此基本上对高斯族进行最大似然估计)
  • 执行一些固定复杂度的密度估计,如高斯混合模型或训练生成神经网络
  • 使用一组简单的几何/代数属性,例如:
    • 点数
    • 每对点之间的均值、最大值、最小值、中值距离
    • 等等
于 2015-08-11T12:34:32.487 回答
0

任何子集都可以通过长度为 的位掩码来标识,如果相应的元素属于该子集,则ceiling(lg(x))i为 1。没有不是x函数的固定长度表示。

编辑

我错了。PCA是针对这个问题执行降维的好方法,但它不适用于某些集合。

但是,您几乎可以做到。其中“几乎”由Johnson-Lindenstrauss 引理正式定义,它指出对于给定的大维度N,存在一个低得多的维度n ,以及将每个点从N映射到n的线性变换,同时保持欧几里得距离在集合的每对点之间,在原始误差ε内。这种线性变换称为 JL 变换。

换句话说,您的问题仅可解决每对点至少相隔ε的点集。对于这种情况,JL 变换为您提供了一种可能的解决方案。此外, Nnε之间存在关系(参见引理),例如,如果N =100,则 JL 变换可以将每个点映射到 5D(n =5)中的一个点,这是唯一标识每个子集,当且仅当原始集合中任何一对点之间的最小距离至少为~2.8(即点足够不同)。

请注意,n仅取决于N和原始集中任何一对点之间的最小距离。它不取决于点x的数量,因此它可以解决您的问题,尽管有一些限制。

于 2015-08-12T01:53:04.470 回答