4

我有以下形式的数据框:

   dim1  dim2
1 Loc.1 0.325
2 Loc.2 0.325
3 Loc.3 0.321
4 Loc.4 0.256
5 Loc.5 0.255

我想计算“dim2”中两 (2) 个元素的每个组合的平均值;并将输出转换为矩阵;同时保留“dim1”提供的信息。

现在,我可以使用 combn 函数获得成对均值:

combn(tab[,2],2, mean)
[1] 0.3250 0.3230 0.2905 0.2900 0.3230 0.2905 0.2900 0.2885 0.2880 0.2555

但我希望它以类似矩阵的形式显示(这实际上与“dist”类的对象非常相似,因为我希望它可以用于进一步分析),如下所示:

        Loc.1   Loc.2   Loc.3   Loc.4
Loc.2   0.325           
Loc.3   0.323   0.323       
Loc.4   0.290   0.291   0.289   
Loc.5   0.290   0.290   0.288   0.256

(如您所见,我还需要“Loc.x”信息)

我找不到可以直接在我的数据框“选项卡”上计算成对计算的简单函数。我可以使用 for 循环,但我觉得应该有一种更直接的方式。

有什么建议吗?非常感谢!

4

3 回答 3

4

这是一个使用expand.grid而不是combn.

as.dist(matrix(apply(expand.grid(tab[, 2], tab[, 2]), 1, mean), 5, 5))
#       1      2      3      4
#2 0.3250
#3 0.3230 0.3230
#4 0.2905 0.2905 0.2885
#5 0.2900 0.2900 0.2880 0.2555

之所以可行,是因为expand.grid考虑了两个列向量 的所有可能组合tab[, 2],而combn忽略了对角线元素;然后,我们对组合矩阵进行逐行操作,计算均值,并将第一个转换vector为 a matrix,然后转换为dist对象。

于 2018-04-16T09:39:48.347 回答
4

这是将向量转换为距离矩阵的一种相对简单的方法:

vec <- c(0.3250, 0.3230, 0.2905, 0.2900, 0.3230, 0.2905, 0.2900, 0.2885, 0.2880, 0.2555)

mat <- matrix(nrow = 5, ncol = 5)
mat[lower.tri(mat)] <- vec
mat <- as.dist(mat)

#output
> mat
       1      2      3      4
2 0.3250                     
3 0.3230 0.3230              
4 0.2905 0.2905 0.2885       
5 0.2900 0.2900 0.2880 0.2555
于 2018-04-16T09:37:09.783 回答
2

您也可以使用该outer功能。

dim2 <- as.numeric(tab$dim2)
names(dim2) <- tab$dim1
x <- outer(dim2, dim2, function(x,y) (x + y) / 2)
as.dist(x)
#        Loc.1  Loc.2  Loc.3  Loc.4
# Loc.2 0.3250                     
# Loc.3 0.3230 0.3230              
# Loc.4 0.2905 0.2905 0.2885       
# Loc.5 0.2900 0.2900 0.2880 0.2555
于 2018-04-16T09:54:10.797 回答