2

我有数据集:

top100_repository_name  month   monthly_increase    monthly_begin_at    monthly_end_with
Bukkit                  2012-03 9                   431                 440
Bukkit                  2012-04 19                  438                 457
Bukkit                  2012-05 19                  455                 474
CodeIgniter             2012-03 15                  492                 507
CodeIgniter             2012-04 50                  506                 556
CodeIgniter             2012-05 19                  555                 574

我使用以下 R 代码:

library(reshape)
latent.growth.data <- read.csv(file = "LGC_data.csv", header = TRUE)
melt(latent.growth.data, id = c("top100_repository_name", "month"), measured = c("monthly_end_with"))
cast(latent.growth.data, top100_repository_name + month ~ monthly_end_with)

我想用它来创建具有以下结构的数据集:

top100_repository_name    2012-03    2012-04    2012-05
Bukkit                    440        457        474
CodeIgniter               507        556        574

但是,当我运行我的代码时,我得到以下输出:

Using monthly_end_with as value column.  Use the value argument to cast to override this choice
Error in `[.data.frame`(data, , variables, drop = FALSE) : 
  undefined columns selected

如何修改我的代码以生成所需的输出?

4

2 回答 2

6

我敢肯定,很快就会有人提出plyr解决方案,但这是使用该reshape功能的基本解决方案。

test <- read.table(textConnection("top100_repository_name  month   monthly_increase    monthly_begin_at    monthly_end_with
Bukkit                  2012-03 9                   431                 440
Bukkit                  2012-04 19                  438                 457
Bukkit                  2012-05 19                  455                 474
CodeIgniter             2012-03 15                  492                 507
CodeIgniter             2012-04 50                  506                 556
CodeIgniter             2012-05 19                  555                 574"),header=TRUE)

重塑这里的数据:

test2 <- reshape(
    test[c("top100_repository_name","month","monthly_end_with")],
    idvar="top100_repository_name",
    timevar="month",
    direction="wide"
)

修正名称

names(test2) <- gsub("monthly_end_with.","",names(test2))

看起来像:

> test2
  top100_repository_name 2012-03 2012-04 2012-05
1                 Bukkit     440     457     474
4            CodeIgniter     507     556     574
于 2013-01-02T00:18:45.243 回答
4

这是 base R 中另一种非常直接的方法。使用xtabs()

xtabs(monthly_end_with ~ top100_repository_name + month, test)
#                       month
# top100_repository_name 2012-03 2012-04 2012-05
#            Bukkit          440     457     474
#            CodeIgniter     507     556     574

as.data.frame.matrix(
  xtabs(monthly_end_with ~ top100_repository_name + month, test))
#             2012-03 2012-04 2012-05
# Bukkit          440     457     474
# CodeIgniter     507     556     574

或者,如@thelatemail 所示,dcast“reshape2”包中的内容可以按如下方式使用:

dcast(test, top100_repository_name ~ month, value.var="monthly_end_with")
#   top100_repository_name 2012-03 2012-04 2012-05
# 1                 Bukkit     440     457     474
# 2            CodeIgniter     507     556     574
于 2013-01-02T03:01:01.863 回答