我正在寻找一种将行的开头与正则表达式匹配并在之后返回该行的方法。该集合非常广泛,因此为什么我不能简单地使用Python 正则表达式匹配中给出的方法 set。我也想知道正则表达式是否是最好的解决方案。我已经阅读了http://docs.python.org/3.3/library/re.html唉,它似乎没有答案。这是我到目前为止所尝试的......
import re
import os
import itertools
f2 = open(file_path)
unilist = []
bases=['A','G','C','N','U']
patterns= set(''.join(per) for per in itertools.product(bases, repeat=5))
#stuff
if re.match(r'.*?(?:patterns)', line):
print(line)
unilist.append(next(f2).strip())
print (unilist)
你看,问题是我不知道如何引用我的集合......
我试图将其匹配的文件如下所示:
@SRR566546.970 HWUSI-EAS1673_11067_FC7070M:4:1:2299:1109 length=50 TTGCCTGCCTATCATTTTAGTGCCTGTGAGGTGGAGATGTGAGGATCAGT
+
hhhhhhhhhhghhghhhhhfhhhhhfffffeee[X]b[d[ed`[Y[^Y