我们有一个简单的表格,如下所示:
------------------------------------------------------------------------
| Name | Attribute1 | Attribute2 | Attribute3 | ... | Attribute200 |
------------------------------------------------------------------------
| Name1 | Value1 | Value2 | null | ... | Value3 |
| Name2 | null | Value4 | null | ... | Value5 |
| Name3 | Value6 | null | Value7 | ... | null |
| ... |
------------------------------------------------------------------------
但可能有数亿行/名称。数据将每隔一小时左右填充一次。
目标是在几秒钟内获得对数据进行交互式查询的结果。
大多数查询看起来像:
select count(*) from table
where Attribute1 = Value1 and Attribute3 = Value3 and Attribute113 = Value113;
where 子句包含任意数量的属性名称-值对。
我是大数据方面的新手,想知道在数据存储(MySQL、HBase、Cassandra 等)和处理引擎(Hadoop、Drill、Storm 等)方面,用于上述交互式查询的最佳选择是什么。