1

我有两种数据-

1) 无模式(不完全无模式,但列会随着时间的推移不断增加,我们不希望我们的加载/发布作业在模式更改时发生更改)。此数据现在存储在 key-val storage 中。密钥数约为 1000。对数约为 7 亿

2) RDBMS 表 - 一组表,每个表都有数百万行。

我需要创建一个数据存储,允许对所有上述数据进行分析(最好使用 SQL)。我正在研究这个问题的一些解决方案,并且觉得 Spark 和 Apache Drill 之类的可以解决这个问题。这是 Spark-Shark 的正确用例吗?我可以在这个用例中使用哪些其他数据存储/解决方案 - Cassandra?MongoDB?

谢谢。

4

1 回答 1

0

作为 Drill 的贡献者,我会根据 Drill 的功能给出答案 -
1。是的,Drill 非常适合无模式文件,它可以即时识别文件模式。
2. Drill 已经具备查询 Mongo 和 HBase 的能力。RDBMS 和 Cassandra 还没有,但在路线图中。

于 2015-02-27T13:51:24.743 回答