问题标签 [elki]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
elki - 索引实施
我正在尝试为我的 PH 树索引实现矩形范围查询,我有以下问题:
- 查看现有实现,所有存储的数据似乎都是点数据(与由左下角或右上角定义的矩形/长方体/...相反)。真的吗?或者我如何从关系中判断我是否存储点和矩形以及从哪里可以获得矩形的左上角?
- 是否有一种查询类型只返回位于矩形中的所有点(或返回与给定查询矩形相交的所有矩形)?我查看了
RangeQuery
,但从文档中它似乎返回给定范围的最近邻居。同样,其他实现DatabaseQuery
似乎不支持这个标准查询。 - 有没有办法让现有的测试来验证我的实现?
IndexFactory
用@apiviz
注释实现一个就足够了吗? - 也许有点跑题了:我找不到 ELKI 邮件列表。该网站提到更新和新闻的“用户邮件列表”,但从 LMU 外部注册被阻止。该网站还提到了一个社区邮件列表,但我找不到链接,有人可以在这里发布吗?
java - 使用ELKI源码进行层次聚类
我尝试使用 ELKI(用于开发由索引结构支持的 KDD 应用程序的环境)进行层次聚类。所以前几天,我导入了 ELKI 源代码(Maven 项目),然后我运行了 miniGUI。
我的问题是:
我想使用 ResultVisulizer 作为结果。但是,我发现 resulthandler 中没有 ResultVisulizer 项。我应该怎么做才能使这个 ResultVisulizer 项目在此处列出?
我想看看层次聚类的树状图。为此需要在这个 miniGUI 中设置哪些参数?
machine-learning - ELKI中DBSCAN MinPts参数的含义
我有一个看似微不足道的问题。我需要有人为我澄清ELKI 实现中 DBSCAN MinPts 参数的含义。
如果我使用k = 4 的值来绘制已排序的k -dist 图,则它表示点p到其第 4 个最近邻的距离。这意味着邻域包含 5 个点 ( k + 1);4 个邻居加上点p。
在 ELKI 中,MinPts是仅表示邻居还是还包括点p?在上述情况下,应该设置为 4 还是 5?
最初的DBSCAN 论文(Ester et al. 1996)谈到将 MinPts 设置为k(MinPts = 4)。DBSCAN Wikipedia 文章似乎也暗示MinPts指的是 p 周围的邻居。然而,ELKI 似乎期望MinPts设置为k + 1 ( MinPts = 5)。
有人请澄清。
cluster-analysis - 在 ELKI 结果可视化中更改散点图标签
是否可以使用参数轻松更改 ELKI 结果可视化中的散点图标签?
对于二维数据,默认轴标记为第 0 列和第 1 列。对于我的情况,将其更改为纬度和经度会很好。我正在使用 ELKI 0.6.5 版运行 DBSCAN。
vector - ELKI 异常值检测一维数据
我一直试图在基于欧几里德距离的一维数据上获得 LOF。但我不断收到“无法评估异常结果,因为我找不到少数标签。” 错误。请看下文。数据如下所示:
0.366959
0.134065
0.54
0.292419
0.449071
0.42
0.208460
0.336666
这是我给出的命令:
聚类已正确完成,但在异常值检测中失败。我在这里错过了什么吗?
probability - ELKI 对大量重复数据的 LOF 实现
ELKI对于其中包含许多重复值的数据是否会失败?我有超过 200 万个观测值(1D)的文件,但它只包含几百个唯一值。其余的都是重复的。当我在 ELKI 中运行此文件时,对于LOF
或LoOP
计算,它会返回NAN
任何小于最高频率值出现次数的 k 的异常值。如果将重复项作为最近的邻居,我可以想象 LRD 计算一定会导致这个问题。但它不应该这样做吗?我们可以依赖 ELKI 针对此类案例产生的结果吗?
terminal - 使用 ELKI 数据生成器时出错
也许是因为我在处理终端方面的技能,但我不明白为什么我会在这里遇到异常。我已经提取了文件夹。而且我认为路径是正确的。
cluster-analysis - 如何使用 ELKI 进行索引 - OPTICS 聚类
我是 ELKI 初学者,我一直在使用它从 .csv 文件中聚集大约 10K 经纬度点。一旦我的设置正确,我想扩大到 1MM 点。
我正在使用带有 LngLatDistanceFunction 的 OPTICSXi 算法
我一直在阅读有关“使用 STR 批量加载启用 R*-tree 索引”的内容,以便看到性能的巨大改进。教程对我帮助不大。
关于如何实现此功能的任何提示?
java - ELKI for OPTICS Xi - 我可以让它更快吗?
我是 ELKI 的新手,我已经成功地调整了我想运行的算法。我在 3K 坐标上使用它,而且速度非常快 - 所以现在我试图扩大到大约 1 MM 记录。现在我正在运行 30K,但已经有几个小时了,它仍在运行。
有什么办法可以提高性能吗?我注意到 java.exe *32 仅使用 ~13% CPU 和 150KB 内存(机器是 2.8 GHz i7 和 32 GB RAM)
我根据其他人先前的建议使用了 pagesize 1024,仅使用 2 维(经度/纬度)
直接从 Windows 命令行运行:
cluster-analysis - 如何在 ELKI DBSCAN 结果中识别我的对象?
我正在使用 ELKI GUI 来运行 DBSCAN 算法。我的输入是一个 CSV 文件。我创建一个投影作为特征选择:
ELKI 给了我一些文件作为集群。这些文件只包含投影属性,而其他属性如UserId不存在。如何识别集群中每个对象的UserId ?