r - R - `prcomp` 是否将样本数据或协方差矩阵作为输入？

Question

如果您在线搜索，有几个线程讨论了函数中covmat标志的使用，该函数princomp对其输入执行主成分分析。如果covmat未定义参数，则princomp首先计算输入的样本协方差矩阵。

另一方面，几乎没有讨论类似的函数prcomp实际上是如何完成对数据进行主成分分析的任务，只讨论它是否比princomp. 这就引出了一个问题：是否prcomp将协方差矩阵或样本数据矩阵作为输入？从帮助文档中不清楚，其中指出（在非公式上下文中）：

默认 S3 方法：

prcomp(x, retx = TRUE, center = TRUE, scale. = FALSE, tol = NULL, ...)

x- 为主成分分析提供数据的数字或复数矩阵（或数据框）。

帮助文件不包含此方法的任何示例，仅包含上面记录的适用于公式对象的示例。文档有点暗示预期的输入是协方差矩阵，如下所示：

计算是通过（居中和可能缩放的）数据矩阵的奇异值分解来完成的，而不是通过使用eigen协方差矩阵来完成。

但是，尚不清楚“数据矩阵”是否是“协方差矩阵”，以及“数据矩阵”是否x与文档前面部分中给出的含义相同。

score 4 · Accepted Answer

幸运的是，可以在这两个函数的源代码中找到答案。

首先，来源prcomp：

> stats:::prcomp.default
function (x, retx = TRUE, center = TRUE, scale. = FALSE, tol = NULL, 
    ...) 
{
    x <- as.matrix(x)
    x <- scale(x, center = center, scale = scale.)
    cen <- attr(x, "scaled:center")
    sc <- attr(x, "scaled:scale")
    if (any(sc == 0)) 
        stop("cannot rescale a constant/zero column to unit variance")
    s <- svd(x, nu = 0)
    s$d <- s$d/sqrt(max(1, nrow(x) - 1))
    if (!is.null(tol)) {
        rank <- sum(s$d > (s$d[1L] * tol))
        if (rank < ncol(x)) {
            s$v <- s$v[, 1L:rank, drop = FALSE]
            s$d <- s$d[1L:rank]
        }
    }
    dimnames(s$v) <- list(colnames(x), paste0("PC", seq_len(ncol(s$v))))
    r <- list(sdev = s$d, rotation = s$v, center = if (is.null(cen)) FALSE else cen, 
        scale = if (is.null(sc)) FALSE else sc)
    if (retx) 
        r$x <- x %*% s$v
    class(r) <- "prcomp"
    r
}

请注意，在上面的块中没有执行协方差计算。对所提供的输入执行缩放和居中操作，此时对结果调用奇异值分解 (SVD) 函数。下一步是根据结果对角化的等级检查结果的大小，以确保结果有效。最后，输出被格式化并设置为适当的类。

换句话说，prcomp对简单地在协方差矩阵上调用 SVD 是一个很好的改进，但不会为您计算协方差矩阵。~~prcomp不是对数据调用，而是对某些数据的协方差估计值调用。~~

编辑：被删除的句子是错误的！在这种情况下，不需要形成协方差矩阵，如果我正确地戴上数学帽子，我会意识到这一点！有关原因的解释，请参阅此 math.SO 线程。在数据矩阵上用 SVD 计算主成分肯定更有效。

princomp与来自（仅显示一部分）的代码进行比较：

if (is.list(covmat)) {
    if (any(is.na(match(c("cov", "n.obs"), names(covmat))))) 
        stop("'covmat' is not a valid covariance list")
    cv <- covmat$cov
    n.obs <- covmat$n.obs
    cen <- covmat$center
}
else if (is.matrix(covmat)) {
    if (!missing(x)) 
        warning("both 'x' and 'covmat' were supplied: 'x' will be ignored")
    cv <- covmat
    n.obs <- NA
    cen <- NULL
}
else if (is.null(covmat)) {
    dn <- dim(z)
    if (dn[1L] < dn[2L]) 
        stop("'princomp' can only be used with more units than variables")
    covmat <- cov.wt(z)
    n.obs <- covmat$n.obs
    cv <- covmat$cov * (1 - 1/n.obs)
    cen <- covmat$center
}

如您所见，该princomp函数的功能更多取决于输入的传递方式，这需要更多的关注。

r - R - `prcomp` 是否将样本数据或协方差矩阵作为输入？

默认 S3 方法：

1 回答 1

Related

Reference