apache-spark - 在 Spark 中使用 PCA 进行异常检测

Question

我阅读了以下文章

使用主成分分析 (PCA) 进行异常检测

文章中写道：

• PCA 算法基本上将数据读数从现有坐标系转换为新坐标系。

• 数据读数越接近新坐标系的中心，这些读数就越接近最佳值。

• 异常分数是使用读数与所有读数的平均值之间的马氏距离计算的，该平均值是变换坐标系的中心。

谁能更详细地描述我使用 PCA 进行异常检测（使用 PCA 分数和 Mahalanobis 距离）？我很困惑，因为 PCA 的定义是：PCA 是一种统计过程，它使用正交变换将一组可能相关变量的观察值转换为一组线性不相关变量的值。当变量之间没有更多相关性时如何使用马氏距离？

谁能解释我如何在 Spark 中做到这一点？pca.transform 函数是否返回我应该计算每次读数到中心的马氏距离的分数？

score 3 · Accepted Answer

假设您有一个 3 维点的数据集。每个点都有坐标(x, y, z)。这些(x, y, z)是维度。由三个值表示的点，例如(8, 7, 4)。它称为输入向量。

当您应用 PCA 算法时，您基本上将输入向量转换为新向量。它可以表示为转动的函数(x, y, z) => (v, w).

例子：(8, 7, 4) => (-4, 13)

现在您收到了一个更短的向量（您减少了一个维度），但您的点仍然有坐标，即(v, w). 这意味着您可以使用马氏测量来计算两点之间的距离。距离平均坐标很远的点实际上是异常点。

示例解决方案：

import breeze.linalg.{DenseVector, inv}
import org.apache.spark.ml.Pipeline
import org.apache.spark.ml.feature.{PCA, StandardScaler, VectorAssembler}
import org.apache.spark.ml.linalg.{Matrix, Vector}
import org.apache.spark.ml.stat.Correlation
import org.apache.spark.sql.{DataFrame, Row, SparkSession}
import org.apache.spark.sql.functions._

object SparkApp extends App {
  val session = SparkSession.builder()
    .appName("spark-app").master("local[*]").getOrCreate()
  session.sparkContext.setLogLevel("ERROR")
  import session.implicits._

  val df = Seq(
    (1, 4, 0),
    (3, 4, 0),
    (1, 3, 0),
    (3, 3, 0),
    (67, 37, 0) //outlier
  ).toDF("x", "y", "z")
  val vectorAssembler = new VectorAssembler().setInputCols(Array("x", "y", "z")).setOutputCol("vector")
  val standardScalar = new StandardScaler().setInputCol("vector").setOutputCol("normalized-vector").setWithMean(true)
    .setWithStd(true)

  val pca = new PCA().setInputCol("normalized-vector").setOutputCol("pca-features").setK(2)

  val pipeline = new Pipeline().setStages(
    Array(vectorAssembler, standardScalar, pca)
  )

  val pcaDF = pipeline.fit(df).transform(df)

  def withMahalanobois(df: DataFrame, inputCol: String): DataFrame = {
    val Row(coeff1: Matrix) = Correlation.corr(df, inputCol).head

    val invCovariance = inv(new breeze.linalg.DenseMatrix(2, 2, coeff1.toArray))

    val mahalanobois = udf[Double, Vector] { v =>
      val vB = DenseVector(v.toArray)
      vB.t * invCovariance * vB
    }

    df.withColumn("mahalanobois", mahalanobois(df(inputCol)))
  }

  val withMahalanobois: DataFrame = withMahalanobois(pcaDF, "pca-features")

  session.close()
}

apache-spark - 在 Spark 中使用 PCA 进行异常检测

我阅读了以下文章

使用主成分分析 (PCA) 进行异常检测

1 回答 1

Related

Reference