2

你能告诉我参数 d 在 DBOutlierDetection 算法(或 DBOutlierScore)中的哪个度量?厘米?毫米?

我必须以某种方式将参数 d 下的区域与 LOF 的 k 进行比较。

4

1 回答 1

2

这取决于您设置的距离度量-algorithm.distancefunction

参数是距离;距离的语义含义取决于您的数据和距离函数。

例如,如果您的数据是纬度、经度对

  • 欧几里得距离将以度为单位,由于畸变,在两极附近是一个相当无意义的值(北极的一度几乎没有,但它是沿赤道的相当大的距离)
  • ELKI 中的大地距离使用米。这更容易参数化。

类似地,如果您使用欧几里得距离,并且您的

  • 数据以米为单位,然后欧几里得距离以米为单位
  • 数据以毫米为单位,然后欧几里得距离以毫米为单位
  • 数据是鞋码、重量、身高和电压,那么使用欧几里得距离没有多大意义,因为您正在测量苹果和橙子。

您可以标准化标准化数据。例如,如果您按均值和标准差进行归一化,度量单位就会消失。对此类数据使用欧几里得距离,则其单位为“标准差”。但是该单元在多峰分布上也不再有意义,因为它在异常值检测和聚类中很常见。

于 2015-08-03T08:07:42.687 回答