我有一个包含数千个 fasta 格式的 DNA 序列的文件,我需要计算在较大文件中出现了多少次 100 个单独的短序列(基序)。到目前为止,我一直在逐个主题地做主题,但我不知道如何对我的输出求和,这样我就没有一列包含数千个值的列。一次输入所有图案并获得一张桌子也很棒。我对编码非常陌生,并感谢任何反馈!我有;
from Bio import SeqIO
for i in SeqIO.parse(f,'fasta'):
print i.seq.count('motif')
我在想我真的不需要 Biopython,因为这些图案不会出现在序列名称中。那么我可以做一个只逐行读取(...)的迭代器吗?
我的输入是这样的;
>fasta1
AACTGGGGTCCGTCGATAATATAGGATAG...
>fasta2
GCGCGTGATAGATATGATTAGCGGCGCAA...
ETC
像这样在 csv 文件中使用图案;
ACCGAATTTAAA,AAATTATAAAA,GCCCTAAAAAG