问题标签 [elki]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

164 问题

0 投票

1 回答

161 浏览

java - elki中具有稀疏向量的kmeans

当我使用密集向量数据尝试此方法时，它可以正确运行，但会抛出稀疏向量数据java.lang.ArrayIndexOutOfBoundsException。我可以使用什么数据源来正确读取稀疏向量数据？

2016-01-19T11:34:00.577

0 投票

2 回答

362 浏览

java - ELKI 找不到类 gnu/trove/impl/hash/TObjectHash

我有一个由大约 10000 个样本组成的数据集，具有两个特征。我想使用 ELKI 来运行 LSDBC 算法并对我的数据集进行聚类。但是，我无法让 ELKI 工作。在运行 elki-0.7.0.jar 并将我想要的设置输入到 gui 之后，无论我选择什么设置，我都会在 gui 底部的控制台输入中收到一长串错误消息（我还没有能够输入我想要的所有设置）。这对我来说表明我缺少一些依赖项，错过了一些安装步骤，或者以某种方式没有正确使用该软件。

不幸的是，似乎没有很多关于 ELKI 的文档，但它也是我能够找到的 LSDBC 的唯一实现之一。我正在寻找的是逐步ELI5，在我的数据集（在WEKA创建的arff文件中）上安装和运行此算法并将结果输出为csv文件的说明；即一个输出文件，指示每个样本的聚类分配。我还希望能够对最佳 k 和 alpha 值执行网格搜索（即，针对 k 和 alpha 的多个值运行算法并保存每个结果；之后我将确定最佳值）。我正在使用 Mac OS X Yosemite。

我觉得这应该是一个相对简单的任务，但我一直没有取得任何进展。我已经复制了下面的错误流

java classloader elki

2016-01-21T01:27:39.383

0 投票

1 回答

148 浏览

outliers - Elki 中的评估

我知道 ELKI 目前只包含无监督异常值检测方法，因此 Elki 不会将输入数据划分为训练集和测试集。但是，我已经看到评估在可用时超过了少数类。我想知道：

elki 是否使用所有输入数据进行评估？
运行时是否考虑评估或仅考虑培训时间？
评估是否考虑离群值分数来估计假阳性率和真阳性率以评估排名？
例如，在 LOF 算法中，假设普通类中的实例具有较高的 LOF 分数。在评估中会被认为是假阳性还是真阳性？

谢谢！

outliers unsupervised-learning elki

2016-02-02T17:51:24.693

0 投票

1 回答

60 浏览

machine-learning - ELKI 层次聚类——“mrg_”聚类对象

我正在使用ELKI's SimplifiedHierarchyExtractionwithAnderbergHierarchicalClustering和。LatLngDistanceFunctionminClSize = 100

我看到旁边"clu_" Clusters还有2 -3"mrg_" Clusters有一些DBID's，但数量是< minClSize。

我的问题是：处理此问题的最佳方法是什么"mrg_" Clusters?：

将其传递DBID´s给其中一个"clu_" children？
把他们当作a cluster虽然他们在minClSize？
只是无视他们？

machine-learning cluster-analysis data-mining hierarchical-clustering elki

2016-02-24T07:53:06.293

0 投票

1 回答

538 浏览

java - ELKI 获取聚类数据点

使用 elki 时，如何获取kmeans (llyod) 集群中的数据点和质心？

我也可以将这些点插入距离函数之一并获得任意两个点之间的距离吗？

这个问题是不同的，因为我的问题的主要焦点是检索数据点，而不是自定义数据点。此外，另一个线程上的答案目前不完整，因为它指的是目前无法运行的 wiki。此外，我想具体了解需要做什么，因为所有库的文档有点像白痴，如果您知道/理解您将直接使用的库，将不胜感激回答，以便其他有同样问题的人也可以有一个很好的可靠参考来参考，而不是试图找出图书馆。

java cluster-analysis k-means elki

2016-03-02T21:55:51.520

0 投票

0 回答

65 浏览

java - 使用 ELKI 我将如何实现依赖于集群数量的距离函数？

我如何实现依赖于集群数量的距离函数？

我一直在查看文档，似乎我无法实现一个考虑到这些因素的聚类距离函数。我正在尝试实现 spearman 的等级顺序和系数，以及 burrow 的 delta。

java cluster-analysis computer-science elki

2016-03-04T13:51:18.227

0 投票

3 回答

751 浏览

java - 每次运行代码时都会得到不同的结果

我每次运行我的java代码时都会对我使用ELKI的数据进行聚类，我得到完全不同的聚类结果，这是正常的还是我应该做些什么来使我的输出几乎稳定？KMeansLloyd<NumberVector> with k=3这是我从elki教程中获得的代码

java cluster-analysis elki

2016-03-10T12:20:49.063

0 投票

1 回答

162 浏览

memory - 使用 ELKI 对大数据进行聚类

我正在ELKI's AnderbergHierarchicalClustering为我的数据集使用过度150000观察，并且对于每个观察，我使用三个变量：lat，lng并且price它们都是double.

我有以下问题：

我的数据集大于接受的数据集（<= 65535 个观察值）
这个算法也是right shift为Agnes triangle——(size * (size - 1)) >>> 1这涉及到大RAM需求

为了解决这个问题，我决定将数据集拆分为20000 obs.

因为20000 obs我需要~4.8GB RAM。

我不知道以这种方式拆分数据的最佳方法是什么，即应用于子集的聚类结果将尽可能接近聚类整个集合的结果。

memory subset hierarchical-clustering elki

2016-03-11T11:20:04.653

0 投票

1 回答

346 浏览

statistics - ELKI 聚类度量是什么意思？

我正在为 ELKI elki-bundle-0.7.1 提供类标签

它提供了很多统计数据，如下所示，但我找不到关于它们是什么的信息？

我知道f1-measure、precision 和recall 但是怎么会有多个度量？它们不应该根据聚类结果计算吗？

谢谢

对计数措施？

基于熵的度量？

基于立方的措施？

基于集合匹配的措施？

编辑距离测量？

基尼措施？

statistics elki

2016-04-06T00:27:24.457

0 投票

1 回答

148 浏览

maven - 构建ELKI当前发展状态的推荐方式是什么？

我从https://github.com/elki-project分叉了 ELKI，因为我想跟上最新的开发状态，同时对源代码进行自己的更改和添加（如果明智的话，我可能会通过拉取请求提供））。

我按照 README.md 中的说明将其打包，mvn package但没有在其中创建 .jar elki/target/- 当检查 release0.7.1 分支时，它可以工作，我可以使用 .jar 启动 minigui java -cp elki-0.7.1.jar de.lmu.ifi.dbs.elki.application.ELKILauncher。有没有推荐的方法来尝试 master 上的最新更改？

maven elki

2016-04-14T11:42:59.210

1 2 3 4 5 6 7 8 9 10

问题标签 [elki]

对计数措施？

基于熵的度量？

基于立方的措施？

基于集合匹配的措施？

编辑距离测量？

基尼措施？

Reference