我有两种数据-
1) 无模式(不完全无模式,但列会随着时间的推移不断增加,我们不希望我们的加载/发布作业在模式更改时发生更改)。此数据现在存储在 key-val storage 中。密钥数约为 1000。对数约为 7 亿
2) RDBMS 表 - 一组表,每个表都有数百万行。
我需要创建一个数据存储,允许对所有上述数据进行分析(最好使用 SQL)。我正在研究这个问题的一些解决方案,并且觉得 Spark 和 Apache Drill 之类的可以解决这个问题。这是 Spark-Shark 的正确用例吗?我可以在这个用例中使用哪些其他数据存储/解决方案 - Cassandra?MongoDB?
谢谢。