我是hadoop的新手。基本上我正在编写一个程序,它需要两个 3+ GB 的 multifasta 文件(ref.fasta,query.fasta).....
ref.fasta:
gi|12345 ATATTATAGGACACCAATAAAATT..
gi|5253623 AATTATCGCAGCATTA...
..等等..
查询.fasta:
查询 ATTATTTAAATCTCACACCACATAATCAATACA AATCCCCACCACAGCACACGTGATATATACA CAGACACA...
现在对于每个映射器,我需要提供 ref 文件的一个部分和整个查询文件。IE
gi|12345 ATATTATAGGACACCAATA....(来自 ref 文件的单个 fasta 序列)
和整个查询文件。因为我想在映射器中运行一个 exe,它将这两个作为输入。
所以我要在外面处理 ref.fasta,然后把它交给 mapper 吗?或者别的什么..??我只需要花费最少时间的方法。
谢谢。