我有一个来自 BioPython 的 Seq 对象列表,我想在这些序列中搜索氨基酸序列基序。搜索这些序列的最佳方法是什么?我的搜索是找到像 GxxxG 这样的主题,但它可能更长或更短,但在第一个 G 之后的下一个 G 的第一个实例处停止。使用诸如 G.*G 之类的正则表达式会给我第一个的结果G 与最后发现的 G 有任意数量的氨基酸。
#Some example code
from Bio.Seq import Seq
from Bio.Alphabet import IUPAC
import re
records = Seq("WALLLLFWLGWLGMLAGAVVIIVR", IUPAC.extended_protein)
search = re.search("F.*G", str(records))
print search.group()
# Want FWLG
# Get
FWLGWLGMLAG