我正在使用 R
set.seed(1)
Data <- data.frame(id = seq(1, 10),
Diag1 = sample(c("A123", "B123", "C123"), 10, replace = TRUE),
Diag2 = sample(c("D123", "E123", "F123"), 10, replace = TRUE),
Diag3 = sample(c("G123", "H123", "I123"), 10, replace = TRUE),
Diag4 = sample(c("A123", "B123", "C123"), 10, replace = TRUE),
Diag5 = sample(c("J123", "K123", "L123"), 10, replace = TRUE),
Diag6 = sample(c("M123", "N123", "O123"), 10, replace = TRUE),
Diag7 = sample(c("P123", "Q123", "R123"), 10, replace = TRUE))
Data
我有一个这样的数据框。实际上,它有 34 个变量和 1.5 个 Mio 观测值。它是一个包含患者数据的数据框。(ID 和诊断(ICD10)A123 和 B123 代表某些诊断。我想提取所有具有这些诊断的患者。事实上,我正在寻找 100 个不同 ICD10 诊断中的 6 个诊断。我寻找的每一个诊断都可以是出现在任何列中,但它们是互斥的。最后我将有一个大约 4000 个观测值的数据框,而不是 1.5 Mio。
我的目标是获得一个数据框,我只保留包含 A123 或 B123 的行。A123 和 B123 不能在同一行。但它们可以出现在每一列中。
当我这样做时,我设法为一个变量做到这一点:
DataA123 <- Data[Data$Diag1 == "A123", ]
但我想对每个变量以及 A123 和 B123(实际上有 6 个这样的因素)一起做。
这可能吗?