我有一个fasta文件如下:
>SO_0001
MTKIAILVGTTLGSSEYIADEMQAQLTPLGHEVHTFLHPTLDELKPYPLWILVSSTHGAGDLPDNLQPFC
KELLLNTPDLTQVKFALCAIGDSSYDTFCQGPEKLIEALEYSGAKAVVDKIQIDVQQDPVPEDPALAWLA
QWQDQI
>SO_0002
MTTPVDAPKWPRQIPYIIASEACERFSFYGMRNILTPFLMTALLLSIPEELRGAVAKDVFHSFVIGVYFF
PLLGGWIADRFFGKYNTILWLSLIYCVGHAFLAIFEHSVQGFYTGLFLIALGSGGIKPLVSSFMGDQFDQ
>SO_0003
MTTDTIVAQATAPGRGGVGIIRISGDKATNVAMAVLGHLPKPRYADYCYFKSASGQVIDQGIALFFKGPN
SFTGEDVLELQGHGGQIVLDMLIKRVLEVEGIRIAKPGEFSEQAFMNDKLDLTQAEAIADLIDATSEQAA
KSALQSLQGEFSKEVHELVDQVTHLRLYVEAAIDFPDEEVD
">" 后面的是基因 ID,">" 行后面的字母是相应的序列。我想解析文件并计算每个基因 ID 的序列中有多少个“C”。我希望我的输出文件是一个制表符分隔的文件,如下所示:
SO_0001 Number of C's
SO_0002 Number of C's
SO_0003 Number of C's
等等...
我正在使用python,并认为通过将基因ID作为字典的键,这将是直接的,但我只使用制表符分隔的文件做到了这一点,我遇到了麻烦,因为每个序列的长度不同并且在基因ID之下。任何建议都会很棒!