我陷入了这个奇怪的高维聚类问题。这是一个类比来解释它。
想象一下,有 2^10 个人进入森林,我们想知道那里生活着多少鸟类。
这些鸟在 128 个维度上彼此不同,并且所有维度都是二进制的。即:鸟要么有大喙,要么有小喙,要么有蓝色的翅膀,要么没有,等等。(每种鸟类可以用128位表示)
我的问题是,当这些人离开森林时,我们只有他们观察的汇总:
“我看到了 8 只鸟,3 只长着蓝色的喙(5 只没有),4 只长着蓝色的翅膀(4 只没有),1 只长着大喙(7 只没有),等等”。他们不报告他们观察的个别特征,而只报告他们观察的汇总。
还有两个额外的约束:
i) 所有物种至少观察一次;ii) 物种数量少(~2^5)。
当然,我们可以汇总它们的聚合(3000 次观察,357 只鸟有大喙,等等)。但是集群呢?
所以问题是:
我们如何才能知道那里生活着多少物种?
我们如何找出每个物种的特征?