2

我有一些数据我不确定如何分析。我敢肯定,它目前在 Excel 中,需要摆弄才能在 R 中工作。我有一组目标,它们的大小和颜色。我还有每个目标的用户、条件和他们的分数。

所以第一个表看起来像这样:

Target, 1, 2, 3, 4, 5 ...
Size,   L, M, L, S, L ...
Color   R, B, G, B, R ...

然后我有所有的用户数据,其中有一列是用户 ID,一列是设备,然后是每个目标的分数列。

User, Condition, 1, 2, 3, ...
1     A          5, 2, 8, ...
1     D          2, 4, 6, ...
2     A          1, 4, 6, ...
2     B          5, 8, 3, ...

我主要想在 4 个条件之间运行 ANOVA,以便查看 L 目标或 R 目标的平均分数是否相同。

我从来不需要使用第二个表来过滤或查找这样的数据。我该怎么做呢?

4

2 回答 2

2

快速而肮脏的解决方案(因为我相信肯定有人会提出一个更优雅的解决方案来避免循环):

tab1 <- list(Target=1:5, Size=c("L","M","L","S","L"), Color=c("R","B","G","B","R"))
tab2 <- data.frame(rep(1:2, each=2), c("A","D","A","B"),
                   c(5,2,1,5), c(2,4,4,8), c(8,6,6,3))
names(tab2) <- c("User", "Condition", 1:3)

library(reshape)
tab2.melt <- melt(tab2, measure.vars=3:5)

for (i in 1:nrow(tab2.melt)) {
  tab2.melt$Size[i] <- tab1$Size[tab1$Target==as.numeric(tab2.melt$variable[i])]
  tab2.melt$Color[i] <- tab1$Color[tab1$Target==as.numeric(tab2.melt$variable[i])]    
}

我假设您能够将数据导入 R,但如果数据结构不是您在摘录中显示的数据结构,您可能需要调整上述代码。基本上,我们的想法是将您的代码视为索引和级别Target的一种方式,我们在最终的每次重复测量中都需要它(关于第 i 个主题)。SizeColordata.frame

更新后的data.frame样子:

> head(tab2.melt)
  User Condition variable value Size Color
1    1         A        1     5    L     R
2    1         D        1     2    L     R
3    2         A        1     1    L     R
4    2         B        1     5    L     R
5    1         A        2     2    M     B
6    1         D        2     4    M     B

从那里,您可以执行 3-way ANOVA 或研究特定的对比。

于 2012-05-18T19:01:09.857 回答
2

一种可能的替代解决方案是将查找表与数据框连接起来:

1.一些示例数据(与@chl 在他的答案中使用的相同,但使用数据框而不是查找值列表):

lut <- data.frame(Target=1:5, Size=c("L","M","L","S","L"), Color=c("R","B","G","B","R"))
df1 <- data.frame(rep(1:2, each=2), c("A","D","A","B"),
                   c(5,2,1,5), c(2,4,4,8), c(8,6,6,3))
names(df1) <- c("user", "condition", 1:3)

2.使用data.table包,您可以将数据帧转换为data.table和长格式(与reshape2相同)

dt.melt <- melt(setDT(df1), id=c("user","condition"),
                variable.factor = FALSE)[, variable := as.numeric(variable)]

3.与查找表连接,以便将 和 的匹配值添加SizeColordata.table

dt.melt[lut, on = c("variable" = "Target"), nomatch=0]

或者:

lut[dt.melt, on = c("Target" = "variable")]

这两者都导致:

    user condition variable value Size Color
 1:    1         A        1     5    L     R
 2:    1         D        1     2    L     R
 3:    2         A        1     1    L     R
 4:    2         B        1     5    L     R
 5:    1         A        2     2    M     B
 6:    1         D        2     4    M     B
 7:    2         A        2     4    M     B
 8:    2         B        2     8    M     B
 9:    1         A        3     8    L     G
10:    1         D        3     6    L     G
11:    2         A        3     6    L     G
12:    2         B        3     3    L     G

您也可以一次调用将其绑定在一起:

dt.melt <- melt(setDT(df1), id=c("user","condition"),
                variable.factor = FALSE)[, variable := as.numeric(variable)
                                         ][lut, on = c("variable" = "Target"), nomatch=0]

通过dplyrtidyr的组合,您可以实现相同的效果:

library(dplyr)
library(tidyr)

df.new <- df1 %>% 
  gather(variable, value, -c(1:2)) %>% 
  mutate(variable = as.numeric(as.character(variable))) %>% 
  left_join(., lut, by = c("variable" = "Target"))

这将给出相同的结果:

> df.new
   user condition variable value Size Color
1     1         A        1     5    L     R
2     1         D        1     2    L     R
3     2         A        1     1    L     R
4     2         B        1     5    L     R
5     1         A        2     2    M     B
6     1         D        2     4    M     B
7     2         A        2     4    M     B
8     2         B        2     8    M     B
9     1         A        3     8    L     G
10    1         D        3     6    L     G
11    2         A        3     6    L     G
12    2         B        3     3    L     G
于 2015-12-08T15:44:53.870 回答