4

我正在尝试从如下所示的数据创建一个购物篮矩阵:

input <- matrix( c(1000001,1000001,1000001,1000001,1000001,1000001,1000002,1000002,1000002,1000003,1000003,1000003,100001,100002,100003,100004,100005,100006,100002,100003,100007,100002,100003,100008), ncol=2)

这代表以下数据:

colnames(input) <- c( "Customer" , "Product" )

由此创建了一个矩阵,其中一个客户为一行,所有产品为列。这可以通过首先用零创建这个矩阵来实现:

input <- as.data.frame(input)
m <- matrix(0, length(unique(input$Customer)), length(unique(input$Product)))
rownames(m) <- unique(input$Customer)
colnames(m) <- unique(input$Product)

这一切都足够快(有 750 000+ 行的数据,创建一个 15000 x 1500 矩阵),但现在我想在适当的地方填充矩阵:

for( i in 1:nrow(input) ) {
    m[ as.character(input[i,1]),as.character(input[i,2])] <- 1
}

我认为必须有一种更有效的方法来做到这一点,正如我从 stackoverflow 中学到的那样,通常可以避免 for 循环。那么问题来了,有没有更快的方法呢?

我需要矩阵中的数据,因为我想使用像插入符号这样的包。在那之后,我可能会遇到与这里的R 内存管理建议(插入符号、模型矩阵、数据框)相同的问题,但这是以后需要考虑的问题。

4

3 回答 3

3

你真的不需要reshape2这个;table就是你要找的。

m1 <- as.matrix(as.data.frame.matrix(table(input)))

all.equal(m, m1)
TRUE
于 2013-07-18T12:48:51.817 回答
2

reshape2包具有可以完成这项工作的强制转换功能:

require(reshape2)
m <- acast(input, Customer ~ Product,function(x) 1,fill=0)
m

给我

        100001 100002 100003 100004 100005 100006 100007 100008
1000001      1      1      1      1      1      1      0      0
1000002      0      1      1      0      0      0      1      0
1000003      0      1      1      0      0      0      0      1

我希望这就是你要找的东西?

于 2013-07-18T12:39:14.760 回答
1

您可以使用稀疏矩阵:

library(Matrix)
input <- as.data.frame(apply(input,2,as.character))
m <- sparseMatrix( 
  i = as.numeric( input[,1] ),
  j = as.numeric( input[,2] ),
  x = 1,
  dim = c( length(levels(input[,1])), length(levels(input[,2])) ),
  dimnames = list( levels(input[,1]), levels(input[,2]) )
)
m
# 3 x 8 sparse Matrix of class "dgCMatrix"
#         100001 100002 100003 100004 100005 100006 100007 100008
# 1000001      1      1      1      1      1      1      .      .
# 1000002      .      1      1      .      .      .      1      .
# 1000003      .      1      1      .      .      .      .      1
于 2013-07-18T12:46:30.483 回答