我有一个大数据集,其中 240 个病例代表 240 名患者。他们都接受了神经心理学测试并填写了问卷。此外,他们的重要其他人(以下简称:代理人)也填写了问卷。由于“患者”和“代理”嵌套在“情侣”中,我想在 R 中进行多级分析。为此,我需要重塑我的数据集以运行此类分析。
简单地说,我想“复制”我的行。对于双主题 ID,添加一个包含 1 和 2 的新变量,其中 1 代表患者数据,2 代表代理数据。然后我希望这些行填充 1. 所有患者数据和包含代理数据的列是 NA 或空或其他,以及 2. 所有代理数据,以及所有患者数据 NA 或空。
假设这是我的数据:
id <- c(1:5)
names <- c('id', 'p1', 'p2', 'p3', 'pr1', 'pr2', 'pr3')
p1 <- c(sample(1:10, 5))
p2 <- c(sample(10:20, 5))
p3 <- c(sample(20:30, 5))
pr1 <- c(sample(1:10, 5))
pr2 <- c(sample(10:20, 5))
pr3 <- c(sample(20:30, 5))
mydf <- as.data.frame(matrix(c(id, p1, p2, p3, pr1, pr2, pr3), nrow = 5))
colnames(mydf) <- names
>mydf
id p1 p2 p3 pr1 pr2 pr3
1 1 6 20 22 1 10 24
2 2 8 11 24 2 18 29
3 3 7 10 25 6 20 26
4 4 3 14 20 10 15 20
5 5 5 19 29 7 14 22
我希望我的数据最终看起来像这样:
id2 <- rep(c(1:5), each = 2)
names2 <- c('id', 'couple', 'q1', 'q2', 'q3')
couple <- rep(1:2, 5)
p1 <- c(sample(1:10, 5))
p2 <- c(sample(10:20, 5))
p3 <- c(sample(20:30, 5))
pr1 <- c(sample(1:10, 5))
pr2 <- c(sample(10:20, 5))
pr3 <- c(sample(20:30, 5))
mydf <- as.data.frame(matrix(c(id2, couple, p1, p2, p3, pr1, pr2, pr3), nrow = 10, ncol = 5))
colnames(mydf) <- names2
>mydf
id couple q1 q2 q3
1 1 1 6 23 16
2 1 2 10 28 10
3 2 1 1 27 14
4 2 2 7 21 20
5 3 1 5 30 18
6 3 2 12 2 27
7 4 1 10 1 25
8 4 2 13 7 21
9 5 1 11 6 20
10 5 2 18 3 23
或者,如果这是不可能的,像这样:
id couple bb1 bb2 bb3 pbb1 pbb2 pbb3
1 1 1 6 23 16
2 1 2 10 28 10
3 2 1 1 27 14
4 2 2 7 21 20
5 3 1 5 30 18
6 3 2 12 2 27
7 4 1 10 1 25
8 4 2 13 7 21
9 5 1 11 6 20
10 5 2 18 3 23
现在,为了让我到达那里,我尝试了 melt() 函数和 gather() 函数,感觉就像我很接近但它仍然没有按照我想要的方式工作。
请注意,在我的数据集中,患者问卷的变量名称为 bb1:bb54,代理问卷的变量名称为 pbb1:pbb54
我试过的例子
df_long <- df_reshape %>%
gather(testname, value, -(bb1:bb11), -(pbb1:pbb11), -id, -pgebdat, -p_age, na.rm=T) %>%
arrange(id)