问题标签 [elki]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
796 浏览

dataset - 如何生成具有特定聚类属性的多维数据?

在研究论文的第 5.A 节中,研究人员使用了以下合成数据集:

  1. GAUSS 由六个具有恒等协方差的高斯簇组成,每个簇在五个维度上有 500 个点。他们的平均值在每个维度上随机分配一个从 0 到 10 的值。聚类均值必须至少相距四个欧几里德距离,并且点必须在其聚类均值的两个欧几里德距离内。
  2. PAIRED 由三对具有恒等方差的高斯簇组成,每对在五个维度上有 500 个点。每对高斯分布在一个平均值附近,每个维度从 0 到 20 随机分配一个值,这样成对的高斯簇之间的欧几里得距离在 4 到 8 之间,非成对高斯之间的欧几里得距离至少为 12。此外,点必须在其聚类平均值的两个欧几里得距离内。

  3. ELONG 由五个具有恒等协方差的高斯簇组成,每个簇在五个维度上有 300 个点。他们的平均值在每个维度上被随机分配一个从零到 50 的值。为了创建不同维度的细长集群,我们将每个集群的单个不同维度的值乘以 15。集群均值必须至少相隔 5 个欧几里得距离。

  4. UNIFORM 由八个簇组成,每个簇在三个维度上有 300 个点。每个簇的点均匀分布在一个 3x3x3 的盒子中,围绕着 10x10x10 立方体中随机分配的中心。聚类中心需要相距五个欧几里得距离。
  5. RINGS 由 2 个以 (0,0) 为中心的环簇、一个半径为 2 的较大外环和一个半径为 1 的较小内环组成。内环上按度数均匀分布了 400 个点。

http://postimg.org/image/jo4rjztjz/


我没有这些数据集。我试图联系研究人员,但没有用。

如何创建这些数据集?有什么工具可以创建它们吗?

原始论文可以在这里找到

0 投票
1 回答
266 浏览

machine-learning - 获取 ELKI OPTICSXi 的集群边界

我有一个一维数据集,其直方图显示多个局部最大值,所以我知道我的一维空间中有多个区域数据更密集。我想确定这些密集区域的边界,以便我对某个数据点所在的密集区域/集群进行分类。为此,我使用 OPTICS,因为它应该能够更好地处理比较集群之间的不同密度到 DBSCAN。

我在 Java 代码中使用 ELKI(版本 0.6.0)(我知道 ELKI 团队不建议将 ELKI 嵌入 Java 中,但我需要为许多数据集重复我的工作流程,因此在我的情况下最好自动执行此操作) . 下面的代码片段打印集群的开始和结束项的索引。OPTICSModel 上的ELKI 文档没有明确定义这些索引号对应的内容,但我假设这些是数据库的增强集群排序中开始和结束数据项的索引(例如 OPTICS.run() 的 ClusterOrderResult 对象-created),而不是数据库本身的开始和结束数据项的索引(无序)。

现在我想知道我的集群在我的一维空间中的哪里开始和结束。因此,我想检索与我上面的代码已经获得的开始和结束索引相对应的数据项。我假设我需要一个 ClusterOrderResult 对象,然后我可以从中检索获得的索引。然而,在文档中,似乎无法从我通过调用 optics.run() 获得的聚类结果对象中检索到这样的东西。由于似乎没有办法获得这个有序的数据库,我天真地尝试从我的原始输入数据集中获取索引,而不是用下面的 println 替换上面代码中的 println:

然而,正如我已经预料到的那样,索引似乎不属于原始输入文件,因为这会定期在我的一维空间中打印末端边界,其值低于末端边界。是否有人知道任何方法来获取与 OPTICS 聚类发现的开始和结束索引相对应的原始一维数据值?我想稍后在我的代码中使用这些值。

0 投票
1 回答
227 浏览

cluster-analysis - 在 ELKI 中运行 k-medoids 算法

我正在尝试运行 ELKI 以在数据集上以 arff 文件的形式实现 k-medoids(对于 k=3)(使用 ELKI 中的 ARFFParser):

在此处输入图像描述

数据集有 7 个维度,但是我获得的聚类结果仅显示一维级别的聚类,并且仅针对 3 个属性执行此操作,而忽略了其余属性。像这样:

在此处输入图像描述

谁能帮助我如何获得所有维度的聚类可视化?

0 投票
1 回答
701 浏览

java - 在 ELKI 中使用 CLIQUE 进行子空间聚类

我正在尝试从高维数据集中检测密集子空间。为此,我想使用 ELKI 库。但是 ELKI 库的文档和示例很少。

我尝试了以下 -

我给出了以下输入-

2,2
2,3
5,2
5,3
8,4

结果是——

我希望输出作为分组到子空间的输入数据点。可能是我选择了错误的值或以错误的方式设置参数。

请帮忙。提前致谢。

0 投票
1 回答
352 浏览

data-mining - 运行 LOF 时 ELKI 的输入文件的结构

我想用 ELKI 的 GUI 运行 LOF 算法,但我不知道它需要什么样的输入文件。我看过这里,当我尝试给它一个输入 csv 文件时,每个实例的属性值用空格分隔(包括类的分类属性,其余属性是数字)。该文件与此类似(没有标题):

我选择 dbc.in 作为 .csv 文件,dbc.parser 作为 NumberVectorLabelParser,ClassLabelFilter 的索引为 9(因为那是带有类标签的列的索引)和 k = 11

但是,它给了我这个错误:

如果我不使用 ClassLabel 过滤器,则会出现一个弹出对话框,其中包含以下消息:

谁能帮我运行算法?非常感谢您的帮助,谢谢!

0 投票
2 回答
165 浏览

cluster-analysis - 使用 ELKI,尺寸大于 14 有问题

我正在尝试在 ELKI 中使用 SUBCLU,但为了弄清楚我已经尝试过 DBSCAN,甚至是 KMEANSLloyd,只是为了知道如何输入高维数据。不幸的是,我最多只能输入 14 个维度,任何更高的维度,程序开始抱怨我没有为“bubble.scaling”输入参数,即使我很清楚地有。我通过使用格式与“mouse.csv”教程文件类似的 .csv 文件输入数据(这是我首先弄清楚如何输入尺寸大于 1 的数据的方法)。我究竟做错了什么?

0 投票
1 回答
438 浏览

java - ELKI:在 Java 中的自定义对象上运行 DBSCAN

我正在尝试在 JAVA 中使用 ELKI 来运行 DBSCAN。为了测试,我使用了 FileBasedDatabaseConnection。现在我想用我的自定义对象作为参数运行 DBSCAN。

我的对象具有以下结构:

我想使用List<MyObject>as 数据库在 ELKI 中运行 DBSCAN,但只应考虑一些参数(例如,使用参数 param1、param2 和 param4 在对象上运行 DBSCAN)。理想情况下,生成的集群包含整个对象。

有没有办法实现这种行为?

如果不是,我如何将对象转换为 ELKI 理解的格式,并允许我将生成的集群对象与我的自定义对象匹配(即是否有一种简单的方法来以编程方式设置标签)?

以下问题谈到了 featureVectors:在自定义对象上使用 ELKI 并理解结果
这可能是我的问题的解决方案吗?以及如何从 my 中创建特征向量List<MyObject>

0 投票
1 回答
295 浏览

cluster-analysis - ELKI DBSCAN 用于百万个文件

我将 dbscan 用于聚类点,因为我的点超过 100 万,我也使用 r*-tree。

我在命令行中使用 ELKI:

对于小文件,它可以,但对于 400 万个文件,发生错误:

0 投票
2 回答
493 浏览

cluster-analysis - Clustering algorithm with different epsilons on different axes

I am looking for a clustering algorithm such a s DBSCAN do deal with 3d data, in which is possible to set different epsilons depending on the axis. So for instance an epsilon of 10m on the x-y plan, and an epsilon 0.2m on the z axis.

Essentially, I am looking for large but flat clusters.

Note: I am an archaeologist, the algorithm will be used to look for potential correlations between objects scattered in large surfaces, but in narrow vertical layers

0 投票
1 回答
140 浏览

cluster-analysis - ELKI - 如何从 elki 的集群对象顺序文件中获取集群?

在 ELKI 上运行 OPTICS 和 DeLiClu 算法,我只得到集群对象顺序文件作为结果。如何获取集群列表以及点与相应集群之间的映射?