我对编码很陌生,我正在试图弄清楚如何解决这个问题:找到所有以 # 开头的标题和第 7 列中包含“PASS”一词的行,并将它们打印到 new.vcf。Pass 可能会出现在其他列中,但在第 7 列中时,它将单独出现并且全部大写。这些文件是制表符分隔的。我已经完成了问题的第一部分,但不知道如何从第 7 列中提取“PASS”。这是我到目前为止的总代码。
#!/usr/bin/env python
myfile= open("temp.vcf","r")
outfile= open("new.vcf","w")
for data in myfile:
data = data.strip("\t")
if data[0] == "#":
outfile.write(data +"\n")
myfile.close()
outfile.close()
myfile=open("temp.vcf","r")
outfile=open("new.vcf","a")
data=myfile.readline()
while data == "PASS":
outfile.write(data+"/t")
data=myfile.readline()
myfile.close()
outfile.close()