问题标签 [elki]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - elki中具有稀疏向量的kmeans
当我使用密集向量数据尝试此方法时,它可以正确运行,但会抛出稀疏向量数据java.lang.ArrayIndexOutOfBoundsException
。我可以使用什么数据源来正确读取稀疏向量数据?
java - ELKI 找不到类 gnu/trove/impl/hash/TObjectHash
我有一个由大约 10000 个样本组成的数据集,具有两个特征。我想使用 ELKI 来运行 LSDBC 算法并对我的数据集进行聚类。但是,我无法让 ELKI 工作。在运行 elki-0.7.0.jar 并将我想要的设置输入到 gui 之后,无论我选择什么设置,我都会在 gui 底部的控制台输入中收到一长串错误消息(我还没有能够输入我想要的所有设置)。这对我来说表明我缺少一些依赖项,错过了一些安装步骤,或者以某种方式没有正确使用该软件。
不幸的是,似乎没有很多关于 ELKI 的文档,但它也是我能够找到的 LSDBC 的唯一实现之一。我正在寻找的是逐步ELI5,在我的数据集(在WEKA创建的arff文件中)上安装和运行此算法并将结果输出为csv文件的说明;即一个输出文件,指示每个样本的聚类分配。我还希望能够对最佳 k 和 alpha 值执行网格搜索(即,针对 k 和 alpha 的多个值运行算法并保存每个结果;之后我将确定最佳值)。我正在使用 Mac OS X Yosemite。
我觉得这应该是一个相对简单的任务,但我一直没有取得任何进展。我已经复制了下面的错误流
outliers - Elki 中的评估
我知道 ELKI 目前只包含无监督异常值检测方法,因此 Elki 不会将输入数据划分为训练集和测试集。但是,我已经看到评估在可用时超过了少数类。我想知道:
- elki 是否使用所有输入数据进行评估?
- 运行时是否考虑评估或仅考虑培训时间?
- 评估是否考虑离群值分数来估计假阳性率和真阳性率以评估排名?
- 例如,在 LOF 算法中,假设普通类中的实例具有较高的 LOF 分数。在评估中会被认为是假阳性还是真阳性?
谢谢!
machine-learning - ELKI 层次聚类——“mrg_”聚类对象
我正在使用ELKI's SimplifiedHierarchyExtraction
withAnderbergHierarchicalClustering
和。LatLngDistanceFunction
minClSize = 100
我看到旁边"clu_" Clusters
还有2 -3"mrg_" Clusters
有一些DBID's
,但数量是< minClSize
。
我的问题是:处理此问题的最佳方法是什么"mrg_" Clusters?
:
- 将其传递
DBID´s
给其中一个"clu_" children
? - 把他们当作
a cluster
虽然他们在minClSize
? - 只是无视他们?
java - ELKI 获取聚类数据点
使用 elki 时,如何获取kmeans (llyod) 集群中的数据点和质心?
我也可以将这些点插入距离函数之一并获得任意两个点之间的距离吗?
这个问题是不同的,因为我的问题的主要焦点是检索数据点,而不是自定义数据点。此外,另一个线程上的答案目前不完整,因为它指的是目前无法运行的 wiki。此外,我想具体了解需要做什么,因为所有库的文档有点像白痴,如果您知道/理解您将直接使用的库,将不胜感激回答,以便其他有同样问题的人也可以有一个很好的可靠参考来参考,而不是试图找出图书馆。
java - 使用 ELKI 我将如何实现依赖于集群数量的距离函数?
我如何实现依赖于集群数量的距离函数?
我一直在查看文档,似乎我无法实现一个考虑到这些因素的聚类距离函数。我正在尝试实现 spearman 的等级顺序和系数,以及 burrow 的 delta。
java - 每次运行代码时都会得到不同的结果
我 每次运行我的java代码时都会对我使用ELKI
的数据进行聚类,我得到完全不同的聚类结果,这是正常的还是我应该做些什么来使我的输出几乎稳定?KMeansLloyd<NumberVector>
with k=3
这是我从elki教程中获得的代码
memory - 使用 ELKI 对大数据进行聚类
我正在ELKI's AnderbergHierarchicalClustering
为我的数据集使用过度150000
观察,并且对于每个观察,我使用三个变量:lat
,lng
并且price
它们都是double
.
我有以下问题:
- 我的数据集大于接受的数据集(<= 65535 个观察值)
- 这个算法也是
right shift
为Agnes triangle
——(size * (size - 1)) >>> 1
这涉及到大RAM
需求
为了解决这个问题,我决定将数据集拆分为20000 obs
.
因为20000 obs
我需要~4.8GB RAM
。
我不知道以这种方式拆分数据的最佳方法是什么,即应用于子集的聚类结果将尽可能接近聚类整个集合的结果。
statistics - ELKI 聚类度量是什么意思?
我正在为 ELKI elki-bundle-0.7.1 提供类标签
它提供了很多统计数据,如下所示,但我找不到关于它们是什么的信息?
我知道f1-measure、precision 和recall 但是怎么会有多个度量?它们不应该根据聚类结果计算吗?
谢谢
对计数措施?
基于熵的度量?
基于立方的措施?
基于集合匹配的措施?
编辑距离测量?
基尼措施?
maven - 构建ELKI当前发展状态的推荐方式是什么?
我从https://github.com/elki-project分叉了 ELKI,因为我想跟上最新的开发状态,同时对源代码进行自己的更改和添加(如果明智的话,我可能会通过拉取请求提供) )。
我按照 README.md 中的说明将其打包,mvn package
但没有在其中创建 .jar elki/target/
- 当检查 release0.7.1 分支时,它可以工作,我可以使用 .jar 启动 minigui java -cp elki-0.7.1.jar de.lmu.ifi.dbs.elki.application.ELKILauncher
。有没有推荐的方法来尝试 master 上的最新更改?