1

我想用自定义距离矩阵而不是内置算法(即欧几里得)对我的数据进行聚类。而且似乎没有明确的方法。

我尝试将我的一些代码添加到 Smile 项目的演示中。还尝试在我的项目中进行测试,这是一段代码:

        StringBuilder sb = new StringBuilder();
        String line;
        while ((line = vrpJsonFromFile.readLine()) != null) {
            sb.append(line).append("\n");
        }
        JSONArray jsonArray = new JSONObject(sb.toString()).getJSONArray("services");
        Double[][] data = new Double[jsonArray.length()][2];
        for (int i = 0; i < jsonArray.length(); i++) {
            JSONObject address = jsonArray.getJSONObject(i).getJSONObject("address");
            data[i][0] = Double.parseDouble(address.getString("lon"));
            data[i][1] = Double.parseDouble(address.getString("lat"));
        }

        // here
        Distance<Double[]> distance1 = (x, y) -> Math.sqrt(Math.pow(y[1]-x[1],2) + Math.pow(y[0]-x[0], 2));
        CLARANS<Double[]> clarans = new CLARANS<>(data, distance1, 3);
        System.out.println(clarans);

此代码使用欧几里得算法创建 CLARANS 聚类(请参见 //here 注释下方的行)。我应该用我自己的距离矩阵来改变它,我希望在微笑中有一种方法可以做到这一点。

4

1 回答 1

1

您可能会使用

Distance<Integer> d = (i,j) -> matrix[i][j];

聚类对象编号,而不是它们的向量。

但它可能值得关注 ELKI,它具有预定义的距离矩阵类,并为对象集使用优化的表示,而不是Integer像上面的 lambda 那样使用昂贵的装箱。因为ij是装箱整数,所以每次距离计算都需要额外的内存间接(和缓存未命中),这会大大降低性能。它还具有更好的 FastCLARANS 算法,以及据称速度快 O(k) 倍的 FastPAM。

于 2019-05-30T06:25:33.550 回答