我是编程新手,在实际尝试找出我需要做的事情时遇到了一些麻烦。任何帮助都会很棒。
问题:我有几个文件,我需要计算给定行中有多少个“C”,然后需要打印出来,这样我就有了#ofC 和字符总数。每个文件中有几百万行需要分析。数据分为四行,只有第二行包含我需要的数据。
文件中的示例:
@M00859:19:000000000-A60W6:1:1101:17503:1628 1:N:0:1
TTATGTATTAAAATTAAGTTTTTTATAAAGTTATTTATTTTGGTTTGATTGGAACGACGAAGAAGTTGTTATATTTTTAAATTGGGAAATTGGAATTATTTGATTAGAAAGTGGGATAATTTTTTTATTTTAATTTTTATTAGATTTATTTAAGTTTTTGGTGTTTTTATAATTTTTTATGTATTTAAATTAAGTTTTTTATGAAGTGATTTAT
+
GGBGBGFHHG3A1DGDEDHGHHGGAG22FBGGFGHHFHHHHG?GGH?FGHB0DGHFCG???//CCHGFHHEGEHHHHHECBGGG1?EFGGH1EF1GHBHFGBFDHEB1GBED11//GB1FFGHHGGHHHHHB1FHFHHEHHE11GHHHHHHFFFHHHHG?CHGHGHHGHHFBHHHHHGHGGHFHHHHBFHHHHEHHHHGGGGFGFBFBFFGGGG
最终目的是为每个文件创建 C 的数量与字符总数的散点图,以便我们可以比较文件之间的结果。
任何帮助都会很棒!
干杯,贾斯汀