python - 使用 mapreduce/PIG 或 Disco 将突变映射到染色体位置

Question

目标：将文件 1 中的突变位置映射到文件 2 中的区域或特征。为此，在比较文件 1 和文件 2 的区域的染色体位置之前，您需要确保染色体 (chr1) 和链 (+/-) 相同。

问题：如何使用 mapreduce 或 Disco 将一个位置映射到一个区域...... Aka 在 mapreduce 方法中制定位置 -> 染色体区域？

描述：我有两个中等大小的文件 (10gb) 和两个我想要处理的文件类型。我已经在基本 python 中解析了这些文件，但将来我可能不得不解析许多更大的类似文件，所以我想用 mapreduce（更具体的 hadoop/Pig）或 Disco 来尝试它来学习。

虽然我可以在一个 EC2 集群上运行节点，理想情况下是一个集群 hadoop（是的，我知道它没有达到目的）或者像 Disco 或 Sparc 这样的东西。

我喜欢使用 Pig 的想法，因为这会减少处理来自 .csv 文件的文件的过程，但我不知道如何使用 mapreduce 将某些内容映射到区域，而不仅仅是键/值对

这是我在想什么的视觉表示：

文件信息：

示例文件在这里：两个示例文件

最后，如果重要的话，python 是我选择的语言。

0 回答 0