-1

在研究论文的第 5.A 节中,研究人员使用了以下合成数据集:

  1. GAUSS 由六个具有恒等协方差的高斯簇组成,每个簇在五个维度上有 500 个点。他们的平均值在每个维度上随机分配一个从 0 到 10 的值。聚类均值必须至少相距四个欧几里德距离,并且点必须在其聚类均值的两个欧几里德距离内。
  2. PAIRED 由三对具有恒等方差的高斯簇组成,每对在五个维度上有 500 个点。每对高斯分布在一个平均值附近,每个维度从 0 到 20 随机分配一个值,这样成对的高斯簇之间的欧几里得距离在 4 到 8 之间,非成对高斯之间的欧几里得距离至少为 12。此外,点必须在其聚类平均值的两个欧几里得距离内。

  3. ELONG 由五个具有恒等协方差的高斯簇组成,每个簇在五个维度上有 300 个点。他们的平均值在每个维度上被随机分配一个从零到 50 的值。为了创建不同维度的细长集群,我们将每个集群的单个不同维度的值乘以 15。集群均值必须至少相隔 5 个欧几里得距离。

  4. UNIFORM 由八个簇组成,每个簇在三个维度上有 300 个点。每个簇的点均匀分布在一个 3x3x3 的盒子中,围绕着 10x10x10 立方体中随机分配的中心。聚类中心需要相距五个欧几里得距离。
  5. RINGS 由 2 个以 (0,0) 为中心的环簇、一个半径为 2 的较大外环和一个半径为 1 的较小内环组成。内环上按度数均匀分布了 400 个点。

http://postimg.org/image/jo4rjztjz/


我没有这些数据集。我试图联系研究人员,但没有用。

如何创建这些数据集?有什么工具可以创建它们吗?

原始论文可以在这里找到

4

1 回答 1

1

可以在此处找到有关 ELKI 数据集生成器的文档和示例:http: //elki.dbs.ifi.lmu.de/wiki/DataSetGenerator

ELKI 中的生成器目前无法生成环形簇(仅球形),也不支持在某个最大距离处的裁剪点。它独立地为每个维度生成独立的样本。唯一支持一次使用多个维度的操作是旋转操作。根据与平均值的距离生成环形集群或裁剪集群意味着一种当前不支持的值依赖性形式。

您将需要联系该出版物的作者,或 编写程序来自己生成此类数据。这并不难;但生成这样的合成数据可能不值得付出努力——在我看来,这不是一个现实的场景。

于 2015-03-30T11:04:04.553 回答