我完全知道可能已经发布了类似的问题,但是在搜索之后似乎我们问题的细节有所不同(或者至少我没有设法找到可以在我的情况下采用的解决方案)。
我目前有两个文件:"messyFile"和"wantedID"。“messyFile”大小为80,000,000 X 2,500,而“wantedID”大小为1 x 462。在"messyFile"的第 253 行,有 2500 个 ID。但是,我想要的只是文件"wantedID"中的 462 个 ID 。假设 462 ID 是 2500 ID 的子集,我如何处理文件“messyFile”,使其仅包含有关 462 ID 的信息(即大小为80,000,000 X 462)。
非常感谢您的耐心等待!
ps:很抱歉造成混乱。但是,是的,这个问题可以归结为这样的事情。在"File#1"的第一行,有 10 个 ID。在"File#2"的第一行,有 3 个 ID("File#2"仅包含 1 行)。3 个 ID 是 10 个 ID 的子集。现在,我希望处理"File#1"以便它只包含有关"File#2"中列出的 3 个 ID 的信息。
ps2:“messyFile”是一个vcf文件,而“wantedID”可以是一个文本文件(我说“可以”是因为它很小,所以我几乎可以为它制作任何类型)
ps3:“文件#1”应该是这样的:
sample#1 sample#2 sample#3 sample#4 sample#5
0 1 0 0 1
1 1 2 0 2
“文件#2”应该是这样的:
sample#2 sample#4 sample#5
所需的输出应如下所示:
sample#2 sample#4 sample#5
1 0 1
1 0 2