3

我陷入了这个奇怪的高维聚类问题。这是一个类比来解释它。

想象一下,有 2^10 个人进入森林,我们想知道那里生活着多少鸟类。

这些鸟在 128 个维度上彼此不同,并且所有维度都是二进制的。即:鸟要么有大喙,要么有小喙,要么有蓝色的翅膀,要么没有,等等。(每种鸟类可以用128位表示)

我的问题是,当这些人离开森林时,我们只有他们观察的汇总

“我看到了 8 只鸟,3 只长着蓝色的喙(5 只没有),4 只长着蓝色的翅膀(4 只没有),1 只长着大喙(7 只没有),等等”。他们报告他们观察的个别特征,而只报告他们观察的汇总。

还有两个额外的约束:

i) 所有物种至少观察一次;ii) 物种数量少(~2^5)。

当然,我们可以汇总它们的聚合(3000 次观察,357 只鸟有大喙,等等)。但是集群呢?

所以问题是:

  1. 我们如何才能知道那里生活着多少物种?

  2. 我们如何找出每个物种的特征?

4

2 回答 2

2

由于2^128 = 340282366920938463463374607431768211456,您需要相当大的样本量才能得出有效的结论。观察到的每只鸟很容易都是独一无二的。

于 2012-12-18T07:21:08.803 回答
2

如果x一个人对一组鸟类的聚合观察,那么您可以通过矩阵乘积来近似它,Dz其中D是一个矩阵,其列代表个体鸟类的特征,并且z是每只鸟的数量的向量。

如果您假设只观察到少量鸟类,那么这将限制 的大小z

这个问题与稀疏字典学习问题非常相似。

这里有几个链接,它们都描述了稀疏字典学习(和相关问题)并提供了解决它的软件: http: //spams-devel.gforge.inria.fr/http://www.ux.uis.no /~karlsk/dle/index.html

于 2012-12-21T20:05:08.557 回答