假设我有一个非常大的稀疏数据矩阵,但我只对查看它的样本感兴趣,使其更加稀疏。假设我还有一个三元组数据框,包括数据的行/列/值的列(从 csv 文件导入)。我知道我可以使用 library(Matrix) 的 sparseMatrix() 函数来创建一个稀疏矩阵
sparseMatrix(i=df$row,j=df$column,x=df$value)
但是,由于我的值,我最终得到了一个稀疏矩阵,它是数百万行乘数万列(其中大部分是空的,因为我的子集不包括大部分行和列)。所有这些零行和列最终都会扭曲我的一些函数(以集群为例——当原点甚至不是有效点时,我最终得到一个包含原点的集群)。我想执行相同的操作,但使用 i 和 j 作为行名和列名。我尝试创建一个密集向量,采样到最大大小并使用添加值
denseMatrix <- matrix(0,nrows,ncols,dimnames=c(df$row,df$column))
denseMatrix[as.character(df$row),as.character(df$column)]=df$value
(实际上我一直将它设置为 1,因为我对这种情况下的值不感兴趣)但我发现它填充了整个矩阵,因为它需要所有行和列的交叉,而不仅仅是row1*col1, row2*col2... 有人知道一种方法来完成我想要做的事情吗?或者,我可以填充稀疏矩阵并简单地让它以某种方式丢弃所有零行和列以将自身压缩成更密集的形式(但我想保留一些对原始行号和列号的引用)我很感激任何建议!
这是一个例子:
> rows<-c(3,1,3,5)
> cols<-c(2,4,6,6)
> mtx<-sparseMatrix(i=rows,j=cols,x=1)
> mtx
5 x 6 sparse Matrix of class "dgCMatrix"
[1,] . . . 1 . .
[2,] . . . . . .
[3,] . 1 . . . 1
[4,] . . . . . .
[5,] . . . . . 1
我想去掉第 1,3 和 5 列以及第 2 和第 4 行。这是一个非常简单的例子,但想象一下,如果不是第 1、3 和 5 行,它们是 1000、3000 和 5000。然后它们之间会有更多的空行。这是当我使用具有命名行/列的密集矩阵时发生的情况
> dmtx<-matrix(0,3,3,dimnames=list(c(1,3,5),c(2,4,6)))
> dmtx
2 4 6
1 0 0 0
3 0 0 0
5 0 0 0
> dmtx[as.character(rows),as.character(cols)]=1
> dmtx
2 4 6
1 1 1 1
3 1 1 1
5 1 1 1