我正在考虑一种并行解析fasta文件的方法。对于那些不知道 fasta-format 的人,举个例子:
>SEQUENCE_1
MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG
LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK
IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL
MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL
>SEQUENCE_2
SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI
ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH
因此,以“>”开头的行是标题行,其中包含标识符后面的序列的标识符。
我想您将整个文件加载到内存中,但在此之后我无法找到处理这些数据的方法。
问题是:线程不能从任意位置开始,因为它们可以通过这种方式剪切序列。
当行相互依赖时,有人有并行解析文件的经验吗?任何想法都值得赞赏。