我正在处理一个文件,这是一个 Genbank 条目(类似于这个)
我的目标是提取 CDS 行中的数字,例如:
CDS join(1200..1401,3490..4302)
但我的正则表达式也应该能够从多行中提取数字,如下所示:
CDS join(1200..1401,1550..1613,1900..2010,2200..2250, 2300..2660,2800..2999,3100..3333)
我正在使用这个正则表达式:
import re
match=re.compile('\w+\D+\W*(\d+)\D*')
result=match.findall(line)
print(result)
这给了我正确的数字,但也给了我文件其余部分的数字,比如
gene complement(3300..4037)
那么如何更改我的正则表达式以获取数字?我应该只在它上面使用正则表达式..
我将使用这些数字来打印基本序列的编码部分。