我有一个包含四列的制表符分隔文件。我需要为“col1”和“col2”中的每个唯一值对组合“col3”和“col4”。示例和输出如下所示。
我正在考虑的一种方法是使用嵌套循环:外循环按顺序读取行,内循环从头开始读取所有行并查找 map。然而,这个过程似乎是计算密集型的。
有没有其他方法可以做到这一点。
col1 col2 col3 col4
a c 1,2 physical
a c 2,3 genetic
b c 22 physical
b d 33,44 genetic
c e 1,2 genetic
c e 2 physical
c f 33,44 physical
c f 3 genetic
a a 4 genetic
e c 1,2 xxxxx
col1 col2 col3 col4
a c 1,2,3 genetic,physical
a a 4 genetic
b c 22 physical
b d 33,44 genetic
c e 1,2 genetic,physical,xxxxx
c f 3,33,44 genetic,physical
如果 'col1' 和 'col2' 像上面最后一行那样切换,它的值会合并为 'xxxxx'