1

我希望在 python 中创建一个正则表达式,它匹配所有T18字符(任何字符)开头的 DNA 序列,然后以AA,或. 我可以管理第一部分,但我似乎无法找到一种方法来编写结尾(双字符)而不复制正则表达式 4 次。这是我对以 结尾的序列的内容:TTCCGGTT

import re
seq='ATGTGTGGACACAAGTGACAGTTTACGATGAGGTTACAGCCCGCA'
match=re.findall('T.{18}TT',seq)
print match
4

1 回答 1

5

查看一个很好的教程

有一个概念叫交替。它匹配任何一个给定的选项:

r'T.{18}(?:TT|AA|CC|GG)'

请注意,您应该使用原始字符串来编码 Python 中的正则表达式,否则您稍后会遇到转义字符的问题。

于 2012-11-16T01:33:14.913 回答