我希望在 python 中创建一个正则表达式,它匹配所有T
以18
字符(任何字符)开头的 DNA 序列,然后以AA
,或. 我可以管理第一部分,但我似乎无法找到一种方法来编写结尾(双字符)而不复制正则表达式 4 次。这是我对以 结尾的序列的内容:TT
CC
GG
TT
import re
seq='ATGTGTGGACACAAGTGACAGTTTACGATGAGGTTACAGCCCGCA'
match=re.findall('T.{18}TT',seq)
print match
查看一个很好的教程。
有一个概念叫交替。它匹配任何一个给定的选项:
r'T.{18}(?:TT|AA|CC|GG)'
请注意,您应该使用原始字符串来编码 Python 中的正则表达式,否则您稍后会遇到转义字符的问题。