1

我有一组分布在球体上的数据,我试图了解必须为 scikit-learn 分发的函数 DBS​​CAN 提供哪些指标。它不能是欧几里得度量,因为点分布的度量不是欧几里得。在 sklearn 数据包中,是否有针对此类情况实施的度量标准,或者将数据划分为小子集是最简单(如果冗长且乏味)的方法吗?

PS我是python的菜鸟

PPS 如果我“预计算”指标,我必须以什么形式提交我的预计算数据?像这样?

0 - 事件1 - 事件2 - ...

事件 1 - 0 - 距离(事件 1,事件 2) - ...

事件 2 - 距离(事件 1,事件 2) - 0

请帮忙?

4

1 回答 1

0

你试过metric="precomputed"吗?

然后将距离矩阵而不是DBSCAN.fit数据传递给函数。

从文档中:

X数组 [n_samples, n_samples] 或 [n_samples, n_features] :

样本之间的距离数组,或特征数组。该数组被视为特征数组,除非该度量被指定为“预先计算”。

于 2014-11-16T23:09:46.007 回答