mongodb - 这是 Spark/Apache Drill 的用例吗？

Question

我有两种数据-

1) 无模式（不完全无模式，但列会随着时间的推移不断增加，我们不希望我们的加载/发布作业在模式更改时发生更改）。此数据现在存储在 key-val storage 中。密钥数约为 1000。对数约为 7 亿

2) RDBMS 表 - 一组表，每个表都有数百万行。

我需要创建一个数据存储，允许对所有上述数据进行分析（最好使用 SQL）。我正在研究这个问题的一些解决方案，并且觉得 Spark 和 Apache Drill 之类的可以解决这个问题。这是 Spark-Shark 的正确用例吗？我可以在这个用例中使用哪些其他数据存储/解决方案 - Cassandra？MongoDB？

谢谢。

score 0 · Accepted Answer

作为 Drill 的贡献者，我会根据 Drill 的功能给出答案 -
1。是的，Drill 非常适合无模式文件，它可以即时识别文件模式。
2. Drill 已经具备查询 Mongo 和 HBase 的能力。RDBMS 和 Cassandra 还没有，但在路线图中。

mongodb - 这是 Spark/Apache Drill 的用例吗？

1 回答 1

Related

Reference