我写了这段代码
import sys
file = open(sys.argv[1], 'r')
string = ''
for line in file:
if line.startswith(">"):
pass
else:
string = string + line.strip()
#print (list(string))
w = input("Please enter window size:")
test = [string[i:i+w] for i in range (0,len(string),w)]
seq = input("Please enter the number of sequences you wish to read:")
#print (test[0:seq])
它生成一个看起来像这样的列表 -
['TAAAACACCC', 'TCAATTCAAG', 'GGTTTTTGAG', 'CGAGCTTTTT', 'ACTCAAAGAA', 'TCCAAGATAG', 'CGTTTAAAAA', 'TTTAGGGGTG', 'TTAGGCTCAG', 'CATAGAGTTT']
现在下一步是读取列表中每个元素中字母GC
(或 can be )的出现次数。CG
有没有办法以输出文件看起来像这样的方式遍历列表:
Segment 1- The %GC is <the calculated number>
Segment 2- The %GC is <the calculated number>
Segment 3- The %GC is <the calculated number>
由于文件太大,而且'TAAGATATA'
我将获得的段数(列表中的每个单独元素,如在输出文件中。另外,由于我是 python(和编程)的新手,所以我不太擅长使用函数。