0

我是 ELKI 初学者,我一直在使用它从 .csv 文件中聚集大约 10K 经纬度点。一旦我的设置正确,我想扩大到 1MM 点。

我正在使用带有 LngLatDistanceFunction 的 OPTICSXi 算法

我一直在阅读有关“使用 STR 批量加载启用 R*-tree 索引”的内容,以便看到性能的巨大改进。教程对我帮助不大。

关于如何实现此功能的任何提示?

4

1 回答 1

1

在二维数据上使用空间 R* 索引的建议参数是:

-db.index tree.spatial.rstarvariants.rstar.RStarTreeFactory
-pagefile.pagesize 512
-spatial.bulkstrategy SortTileRecursiveBulkSplit

对于更高维度的数据,需要更大的页面大小。512-1024 字节的页面大小似乎是二维数据的最佳选择,但这也取决于您的数据。

要离散集群,您可以使用 Xi 提取:

-algorithm clustering.optics.OPTICSXi -opticsxi.xi 0.005

要从 OPTICS 的索引加速中受益,请为您的应用选择尽可能小的 epsilon。该参数以为单位,ELKI 中的所有地球模型。

-opticsxi.algorithm OPTICSHeap
-algorithm.distancefunction geo.LatLngDistanceFunction
-optics.epsilon 2000.0 -optics.minpts 10

最大使用 2 公里的距离。

确保区分latitude,longitudelongitude,latitude。两个订单都用到了,你需要使用正确的距离函数:

geo.LatLngDistanceFunction
geo.LngLatDistanceFunction
于 2015-09-24T09:03:43.387 回答