我正在研究 Hadoop,看看它的哪些产品适合我们对大型数据集(每组数十亿条记录)进行快速查询的需求
查询将针对芯片测序数据执行。每条记录是文件中的一行。为了清楚起见,下面显示了数据集中的示例记录。
一行(记录)看起来像:
1-1-174-418 TGTGTCCCTTTGTAATGAATCACTATC U2 0 0 1 4 ***103570835*** F .. 23G 24C
突出显示的字段称为“匹配位置”,我们感兴趣的查询是该“匹配位置”的一定范围内的序列#。例如,范围可以是“匹配位置”> 200 和“匹配位置”+ 36 < 200,000。
关于我应该开始完成任务的 Hadoop 产品有什么建议吗?HBase、Pig、Hive 还是 ...?