我有一个包含 3 列的数据框。其中一列(项目)包括可能重复的长字符串(一些包括特殊字符,例如分号;为简单起见,这里写为 Tx)。我想找到特定列的所有唯一值。为每个唯一值创建以下格式的昵称:OV1、OV2、... OVn。我想保留这张表并称之为“转换表”。在下一步中,我想转到源表并使用转换表中的值重新编码每个值。
以下是源表的示例:
items sequenceID eventID SIZE
1: T1 41595370 1 1
2: T2 41595371 1 1
3: T3 41595282 1 1
4: T3 41595282 2 1
5: T4 41595373 1 1
6: T5 41595368 1 1
7: T1 41595379 1 1
结果表将是:
items sequenceID eventID SIZE
1: OV1 41595370 1 1
2: OV2 41595371 1 1
3: OV3 41595282 1 1
4: OV3 41595282 2 1
5: OV4 41595373 1 1
6: OV5 41595368 1 1
7: OV1 41595379 1 1
转换表将是:
1: T1 OV1
2: T2 OV2
3: T3 OV3
4: T4 OV4
5: T5 OV5
源数据在data6
(数据框)中。我使用了以下命令:
u1 <- unique(data6$items)
u1 <- data.frame(u1)
ov <- c(paste("ov",1:nrow(u1),sep=""))
我现在将u1
用OV
值替换驻留在其中的所有唯一项列,并将其创建为转换表。之后替换data6$items
.
非常感谢你的帮助。