1

目标:将文件 1 中的突变位置映射到文件 2 中的区域或特征。为此,在比较文件 1 和文件 2 的区域的染色体位置之前,您需要确保染色体 (chr1) 和链 (+/-) 相同。

问题:如何使用 mapreduce 或 Disco 将一个位置映射到一个区域...... Aka 在 mapreduce 方法中制定位置 -> 染色体区域?

描述:我有两个中等大小的文件 (10gb) 和两个我想要处理的文件类型。我已经在基本 python 中解析了这些文件,但将来我可能不得不解析许多更大的类似文件,所以我想用 mapreduce(更具体的 hadoop/Pig)或 Disco 来尝试它来学习。

虽然我可以在一个 EC2 集群上运行节点,理想情况下是一个集群 hadoop(是的,我知道它没有达到目的)或者像 Disco 或 Sparc 这样的东西。

我喜欢使用 Pig 的想法,因为这会减少处理来自 .csv 文件的文件的过程,但我不知道如何使用 mapreduce 将某些内容映射到区域,而不仅仅是键/值对

这是我在想什么的视觉表示:正在考虑。

文件信息:

  1. 第一个文件是 TCGA 癌症 SNP 突变。一些重要的功能包括

    • 染色体位置
    • 染色体数
    • 样品编号
    • 其余的不是那么重要
  2. 3' UTR 序列。

    • 染色体起始位置:int
    • 染色体末端位置:int
    • 染色体编号:chrX
    • 链 +/-
    • 基因编号
    • 其余的不是那么重要

示例文件在这里:两个示例文件

最后,如果重要的话,python 是我选择的语言。

4

0 回答 0