1

我有一个包含如下字符串的文件:

NM_???? chr12 - 10 110 10 110 3 10,50,100, 20,60,110,

我对最后两列感兴趣,第一列是逗号分隔的外显子列表,最后一个是逗号分隔的外显子列表。

也就是说,我做了以下事情:

fp = open(infile, 'r')
for line in fp:
   tokens = line.split()
   exonstarts = tokens[8][:-1].split(',')
   exonends = tokens[9][:-1].split(',')
   zipped = list(zip(exonstarts, exonends))

现在我有一个看起来像这样的列表:

[(10, 20), (50, 60), (100, 110)]

我还有一个问题,我想要这些东西。因此,例如,我想要chr_string[10:20]+chr_string[50:60]+chr_string[100:110]有一种方法可以轻松地说出这个吗?

4

3 回答 3

4

我认为最 Pythonic 的说法是:

''.join(chr_string[a[0]:a[1]] for a in myList)
于 2012-04-28T00:42:07.900 回答
2
"".join(chr_string[slice(*exon_interval)] for exon_interval in zipped)
于 2012-04-28T00:47:44.843 回答
1

使用这些对list通过切片(我已经制作)获得:chr_string

>>> [chr_string[start:end + 1] for start,end in zip(exonstarts, exonends)]
['05060708091', '25262728293', '50515253545']

将这些结合在一起:

>>> ''.join(chr_string[start:end + 1] for start,end in zip(exonstarts, exonends))
'050607080912526272829350515253545'
于 2012-04-28T01:00:15.727 回答