hadoop - Exasol 与 HBase

Question

我对大数据架构很陌生，所以请不要对我苛刻。

我正在尝试找出构建能够处理大量数据的 BI 架构的最佳替代方案。正如我所看到的，该解决方案必须是集群/水平可扩展的，以应对系统增长。我希望能够使用 SQL 与系统进行交互，因此 HBase + Hive（甚至是 Pig，不是用于 sql 但不需要手动编写 MR 任务）可能是一个解决方案。与 Exasolution 及其内存中 - MPP - 列解决方案相比，这种架构的优缺点是什么。

是否有其他替代品可能有一些额外的好处？维护和配置呢？任何 Microsoft 解决方案（我可能会发现客户对此的特定需求）

很抱歉发布这样一个悬而未决的问题，但我希望看到一些讨论，以便我可以尽可能多地向你学习。

score 1 · Accepted Answer

虽然是一名 EXASOL 专家，但我不会开始试图让您相信 EXASOL 是唯一的好解决方案。这在很大程度上取决于您尝试实现的用例以及您必须满足的要求。

Hadoop是一个非常灵活、可扩展的系统，经常用于存储和处理大量数据。

相比之下， EXASOL是用于复杂分析查询处理的专用 RDBMS。

我认为这两个选项并没有真正直接竞争，而是相辅相成。在许多情况下，公司需要一个可扩展的数据湖来存储和预处理数据，或者以相当简单的方式查询它。一旦您想进入具有复杂分析的实时业务，其中数十、数百甚至数千名分析师正在运行大量查询，那么内存 RDBMS 是一个不错的选择。

Candy Crush 的制作人 King将这两个世界结合成一个强大的数据管理生态系统。它们在 Hadoop 中存储 PB 级数据，并在顶部使用 EXASOL 作为数百 TB 数据的内存层。您可以在此处阅读有关该令人兴奋的用例的更多信息：http: //bit.ly/1TR8APY

这两个世界的另一个重要区别是复杂性。虽然 EXASOL 无需调整，因为它是一个专用系统（类似于设备），用于运行 SQL 查询或 R/Python/Java 数据库内分析的特定用例，但 Hadoop 堆栈要复杂得多。您需要一定程度的了解如何设置、维护和调整此系统。这不需要成为这两个选项中的任何一个的原因。如前所述，这在很大程度上取决于您想要什么。

从价格的角度来看，Hadoop 是免费的，所以它应该比 EXASOL 等内存数据库便宜得多，对吧？等一下，没那么容易。同样，您必须考虑整体情况。您真正想要存储多少数据，需要查询多少数据进行分析，需要购买多少硬件，需要雇用和培训多少人来进行操作或系统上部署的分析.

概括

总结一下我的想法，世界太复杂了，无法直接比较这两种技术。根据用例和您的个人要求，其中一个可能是更好的选择。在我看来，市场的趋势是将此类系统与数据管理生态系统相结合，在其中您可以从两个世界中获得最好的……实际上是三个世界，因为 NoSQL 解决方案的操作数据处理世界也应该是这里提到。

我希望这会有所帮助。如果您需要更多关于 EXASOL 的详细信息，请随时与我联系或在 LinkedIn 上与我联系：de.linkedin.com/in/exagolo

hadoop - Exasol 与 HBase

1 回答 1

Related

Reference