r - 使用 R 处理入院数据（第二部分）

Question

感谢大家提供关于使用 R 处理入院数据的问题的建议，我对这个问题还有一个问题，实际上应该是那个问题之前的任务。

现在我有一个这样的数据集：

Patient_ID Date Ward
P001       1    A
P001       2    A
P001       3    A
P001       4    A
P001       4    B
P001       5    B
P001       6    B
P001       7    B
P001       7    C
P001       8    B
P001       9    B
P001       10   B

我需要将其转换为：

Patient_ID Date Ward
P001       1    A
P001       2    A
P001       3    A
P001       4    A;B
P001       5    B
P001       6    B
P001       7    B;C
P001       8    B
P001       9    B
P001       10   B

目前我已经使用转换它ddply，代码附在下面：

data <- ddply(data,
              c("Patient_ID", "Date"),
              function(df)
                {data.frame(Ward=paste(unique(df[,"Ward"]),collapse=";"))
                },
              .progress="text"
              )

unique(Patients_ID)这可以解决我的问题，但是当数据集具有 8818和 1861时，它非常慢（在 P4 3.2 机器上超过 20 分钟）unique(Date)。我该如何改进呢？谢谢！

score 3 · Accepted Answer

假设您的数据在对象中，这是可行的pdat

res <- with(pdat,
            aggregate(Ward, by = list(Date = Date, Patient_ID = Patient_ID),
                      FUN = paste, collapse = ";"))
names(res)[3] <- "Ward"
res <- res[, c(2,1,3)]

并给出：

> res
   Patient_ID Date Ward
1        P001    1    A
2        P001    2    A
3        P001    3    A
4        P001    4  A;B
5        P001    5    B
6        P001    6    B
7        P001    7  B;C
8        P001    8    B
9        P001    9    B
10       P001   10    B

它应该很高兴地扩展到更多患者等，并且比您的ddply()版本快很多：

> system.time(replicate(1000,{
+ res <- with(pdat,
+             aggregate(Ward, by = list(Date = Date, Patient_ID = Patient_ID),
+                       FUN = paste, collapse = ";"))
+ names(res)[3] <- "Ward"
+ res <- res[, c(2,1,3)]
+ }))
   user  system elapsed 
  2.113   0.002   2.137

对比

> system.time(replicate(1000,{
+ ddply(pdat,
+       c("Patient_ID", "Date"),
+       function(df)
+       data.frame(Ward=paste(unique(df[,"Ward"]),collapse=";"))
+       )
+ }))
   user  system elapsed 
 12.862   0.006  12.966

但是，这并不意味着ddply()不能加速 - 我不熟悉这个包。

两个版本是否以相似的方式扩展——即仅仅因为aggregate()版本在这些对简单数据的重复测试中更快，并不意味着当应用于更大的任务时你会得到同样的好处——还有待观察，但我会让你在你的数据的小子集上测试这两个版本，而不是几个病人，看看它们的扩展性如何。

编辑： 快速测试 - 重复您提供给我们的患者数据以生成 4 名新患者（总共 5 名），所有患者都具有相同的数据，这表明聚合的规模更好一些。1000 次重复的版本执行时间aggregate()达到 4.6 秒（约翻倍），而ddply()版本的执行时间达到 52 秒（约翻两番）。

r - 使用 R 处理入院数据（第二部分）

1 回答 1

Related

Reference