1

当涉及在长格式和宽格式之间切换时,我在当前的数据分析工作流程中发现了一些次优步骤。考虑下面显示的三个迹线,它们具有共同的x值,

在此处输入图像描述

我的数据是长格式的,可​​用于绘图和各种 pipy 事物,但对于分析的某些部分,处理宽(类似矩阵)格式似乎要容易得多。例如,在这个虚拟示例中,我可能希望将所有迹线的基线设置为 0,方法是减去 0 到 0.25 之间的每个迹线的平均值(灰色阴影区域)。

我找不到一种简单的方法来做这种长格式的事情。

我目前的策略是切换回宽格式,但是 i) 我不记得 dcast/reshape 的正确语法,ii) 在两者之间来回切换效率非常低。

dwide <- reshape2::dcast(dlong, x~..., value.var="y")
dwide[,-1] <- sweep(dwide[,-1], 2, colMeans(dwide[dwide$x < 0.25, -1]), FUN="-")
dlong2 <- melt(dwide, id="x")

在此处输入图像描述

我是否错过了一些可以提供帮助的工具?我对 data.table 建议持开放态度。


完全可重现的例子:

library(ggplot2)
library(plyr)
library(reshape2)

## dummy data as noisy lorentzian-shaped peaks with random offset

set.seed(1234)
fake_data <- function(a, x = seq(0, 1, length=100)){ 
  data.frame(x = x, 
             y = jitter(1e-3 / ((x - a)^2 + 1e-3) + runif(1,0,1), 
                   amount = 0.1))
}

## apply function to all combinations of parameters (one here)
dlong <- plyr::mdply(data.frame(a = c(0.4,0.5,0.6)), fake_data)

ggplot(dlong, aes(x, y, colour=factor(a))) + geom_line() +
  annotate("rect", xmin=-Inf, xmax=0.25, ymin=-Inf, ymax=Inf, fill="grey", alpha = 0.3) +
  theme_minimal()

dwide <- reshape2::dcast(dlong, x~..., value.var="y")
str(dwide)

dwide[,-1] <- sweep(dwide[,-1], 2, colMeans(dwide[dwide$x < 0.25, -1]), FUN="-")
dlong2 <- melt(dwide, id="x")

ggplot(dlong2, aes(x, value, colour=variable)) + geom_line()  +
  theme_minimal()
4

1 回答 1

6

也许您的最小示例太微不足道,无法捕捉您可能想要从长到宽再到长的所有情况。但至少对于您的示例,我通常会使用 data.table 进行此类操作:

setDT(dlong)[, y2 := y - mean(y[x < 0.25]), by=a]

ggplot(dlong, aes(x, y2, colour=factor(a))) + 
  geom_line() +
  theme_minimal()

在此处输入图像描述

打破这个:

  • by = a对数据进行分组,以便将 .data.table 的第二个参数中的操作[应用于 dlong 的子集,这些子集对应于 a 的每个值

  • y2 := y - mean(y[x < 0.25])因此,针对 a 的每个值分别计算

  • :=是 data.table 中的一个特殊运算符,它提供引用赋值而不是复制赋值(非常有效)

  • .datat.table的第一个参数在[这里留空,因为我们希望对原始 dlong 数据的所有行进行操作。

几乎相同的事情可以dplyr通过

dlong %>% 
  group_by(a) %>% 
  mutate(y2 = y - mean(y[x < 0.25]))
于 2016-12-05T00:16:15.433 回答