3

我正在做 DBSCAN 聚类,除了纬度经度之外,我还有一列我想在聚类结果中看到。例如数据如下所示:

28.6029445  77.3443552  1
28.6029511  77.3443573  2
28.6029436  77.3443458  3
28.6029011  77.3443032  4
28.6028967  77.3443042  5
28.6029087  77.3442829  6
28.6029132  77.3442797  7

现在在 minigui 中,如果我设置parser.labelindices为 2 并运行任务,则输出如下所示:

# Cluster: Cluster 0
ID=63222 28.6031295 77.3407848 441
ID=63225 28.603134 77.3407744 444
ID=63220 28.6031566667 77.3407816667 439
ID=63226 28.6030819 77.3407605 445
ID=63221 28.6032 77.3407616667 440
ID=63228 28.603085 77.34071 447
ID=63215 28.60318 77.3408583333 434
ID=63229 28.6030751 77.3407096 448

所以它仍然连接到我作为label. 我通过仅传递纬度和经度及其完全相同的方式检查了聚类结果。因此,通过将列作为“标签”传递,我可以在集群结果中检索具有 lat long 的列。

现在我想在我的java代码中使用它

// Setup parameters:
            ListParameterization params = new ListParameterization();
            params.addParameter(
                    FileBasedDatabaseConnection.Parameterizer.INPUT_ID,
                    fileLocation);
            params.addParameter(
             NumberVectorLabelParser.Parameterizer.LABEL_INDICES_ID,
             2);
            params.addParameter(AbstractDatabase.Parameterizer.INDEX_ID,
                    RStarTreeFactory.class);

但这给了一个NullPointerException. 在 MiniGuidbc.parser中是NumberVectorLabelParser默认的。所以这应该可以正常工作。我错过了什么?

4

1 回答 1

3

我将查看 NPE,它应该返回更有用的错误消息。

最有可能的问题是这个参数是 type List<Integer>,即你需要传递一个列表。或者,您可以传递 a String,它将被解析。以下应该可以正常工作:

params.addParameter(
         NumberVectorLabelParser.Parameterizer.LABEL_INDICES_ID,
         "2");

请注意,文本编写器可能(我没有检查过)按原样打印标签。因此,您不能将输出作为它认为您的数据集是 3 维的指示。

调试处理程序-resulthandler LogResultStructureResultHandler -verbose应该为您提供类型输出:

java -jar elki.jar KDDCLIApplication -dbc.in dbpedia.gz \
-algorithm NullAlgorithm \
-resulthandler LogResultStructureResultHandler -verbose

应该产生这样的输出:

de.lmu.ifi.dbs.elki.datasource.FileBasedDatabaseConnection.load: 1941 ms
de.lmu.ifi.dbs.elki.algorithm.NullAlgorithm.runtime: 0 ms
BasicResult: Algorithm Step (main)
 StaticArrayDatabase: Database (database)
  DBIDView: Database IDs (DBID)
  MaterializedRelation: DoubleVector,dim=2 (relation)
  MaterializedRelation: LabelList (relation)
 SettingsResult: Settings (settings)

在这种情况下,我的数据集是来自 Wikipedia 的坐标,每个坐标都有一个名称。我有一个二维DoubleVector关系和一个LabelList存储对象名称的关系。

于 2014-05-28T12:23:02.950 回答