我有一个文件,其中一行中有几个未排序的东西,我想放入一个新文件中
这是我拥有的部分文件的示例:
X1314448: SaMi|SM_g2554.t1 SaMi|SM_g5072.t1 Des|Des_g3808.t1 Dul|Dul_comp50786_c0_seq1-1 Nig|Nig_comp88811_c0_seq2-1 AB|AB0003DMP400018076_AB0003DMT400026495 Phy|Phy_comp35647_c0_seq1-1 SWtf|SW_g27807.t1 Tom|Solyc02g077050.2.1
X1314810: Des|Des_g33587.t1 Nig|Nig_comp84357_c0_seq1-1 AB|AB0003DMP400020961_AB0003DMT400030857 Phy|Phy_comp33112_c0_seq1-1 SaMi|SM_g27352.t1 SWtf|SW_g21774.t1 TAIR|AT4G14930.1 Tom|Solyc06g054250.2.1 Dul|Dul_comp63657_c0_seq2-1
X1327159: AB|AB0003DMP400016823_AB0003DMT400024599 AB|AB0003DMP400017933_AB0003DMT400026257 Dul|Dul_comp58749_c0_seq2-1
X1330513: Des|Des_g36886.t1 AB|AB0003DMP400049952_AB0003DMT400073802 SWtf|SW_g16502.t1
X132738: Des|Des_g491.t1 Des|Des_g6171.t1 Dul|Dul_comp57659_c0_seq2-1 Dul|Dul_comp57659_c0_seq3-1 Dul|Dul_comp57659_c0_seq4-1 Ni g|Nig_comp93106_c3_seq1-1 Nig|Nig_comp93106_c3_seq2-1 AB|AB0003DMP400005485_AB0003DMT400007895 AB|AB0003DMP400021388_PGS C0003DMT400031553 Phy|Phy_comp61931_c0_seq1-1 Phy|Phy_comp61931_c0_seq2-1 Phy|Phy_comp61931_c0_seq3-1 Phy|Phy_comp61931_c0_seq4-1 RICE|LOC_Os08g43334.1 RICE|LOC_Os08g43334.2 RICE|LOC_Os09g35790.1 RICE|LOC_Os09g35790.2 SaMi|SM_g30888.t1 SaMi|SM_g5888.t1 SWtf|SW _g17547.t1 SWtf|SW_g33717.t1 Des|Des_g47565.t1 SaMi|SM_g6027.t1 SWtf|SW_g42019.t1 TAIR|AT5G62020.1 Tom|Solyc03g026020.2.1 TAIR|AT4 G11660.1
我想要的是第一部分,“X1314448:”,然后是“Des|Des_g3808.t1”。如果还有另一个“Des_xxx”(在某些情况下有多个,比如倒数第二行),我希望它也包含在内,然后是输出文件中的“AB|AB00…”,但由于它是一个未排序的列表,我不确定如何在仍然保持它们打开的同时整理出我想要的三个不同部分同一行(保持它们相互链接)。我也不知道如何在这样的一行上获得多个匹配项。
所以对于第一行,输出应该是:
X1314448: Des|Des_g3808.t1 AB|AB0003DMP400018076_AB0003DMT400026495
对于倒数第二个:
X1330513: Des|Des_g36886.t1 AB|AB0003DMP400049952_AB0003DMT400073802
最后一个:
X132738: Des|Des_g491.t1 Des|Des_g6171.t1 Des|Des_g47565.t1 AB|AB0003DMP400005485_AB0003DMT400007895 AB|AB0003DMP400021388_PGSC0003DMT400031553
我认为主要问题是最后一行。我还希望能够修改文件以包含“Dul | ...”。
我已经尝试了几件事,似乎最后一行使得无法使用管道和 grep,尽管我不确定,因为我已经看到使用该方法完成了一些很棒的事情。我对 Perl 有一些经验,但不知道如何使用它来解决这个问题。我也尝试过使用 awk,这可能是解决它的最佳方法,但我也没有使用它的有效解决方案。
我非常感谢有关如何解决此问题的任何想法。