我想将一个两列文件转换为一个零和一的表,以便为 PCA(主成分分析)做好准备。输入文件由第一列中的细菌名称和第二列中的细菌描述符组成。
可能的方法:将输入文件存储在哈希中,然后在每列上执行某种“uniq”命令并将它们添加到输出文件中。最后,对于输出文件中的每个组合,如果在文件 1 哈希中找到细菌名称和描述符,则添加 0 或 1。
输入文件(制表符分隔):
bacteria_1 protein:plasmid:149679
bacteria_1 protein:proph:183386
bacteria_2 protein:proph:183386
bacteria_3 protein:plasmid:147856
bacteria_3 protein:proph:183386
所需的输出(制表符分隔):
protein:plasmid:149679 protein:proph:183386 protein:plasmid:147856
bacteria_1 1 1 0
bacteria_2 0 1 0
bacteria_3 0 1 1