4

从描述中我并不完全清楚 es-hadoop 是什么。

这仅仅是将数据从 ES 集群转移到 HDFS 以进行 Hadoop 分析的“连接器”吗?如果是这样,为什么不直接使用 HBase 进行低延迟文本查询呢?

es-Hadoop 与常规 ES 的安装方式不同吗?

请澄清一下。

谢谢。

4

1 回答 1

7

ES-Hadoop 更接近于成为 Hadoop 生态系统与 ES 之间的连接器。它不是 ES 的单独版本。

基本上它改进了 Hadoop 生态系统应用程序与 ES 之间的集成。在我的组织中,我们将此功能用于两个目的:

  1. 在将数据索引到 ES 之前,我们使用 Spark 分析数据并进行相关聚合,以减少应该在 ES 上执行的索引量。ES-Hadoop 帮助我们直接从 Spark 数据结构索引到 ES。我们用一行代码开始索引过程,不需要自己编写索引程序。(该功能是可配置的,您可以根据需要灵活地索引数据)。

  2. 在我们的组织中,我们使用 ES 作为我们近乎实时的分析集群。ES 中的数据以能够为我们的客户产生最佳性能的方式放置。有时(通常当我们对一些新特性有想法时)我们必须从 ES 中获取数据并对数据进行一些复杂的处理。在这些情况下,我们也可以在一行代码中从 ES 数据创建 Spark 数据结构。

因此,ES-Hadoop 更接近于编写良好的连接器。您仍然需要将数据从 ES 集群传输到 Hadoop。

我不确定与 HBase 的比较,与作为通用搜索引擎的 ES 相比,您无法真正比​​较 HBase 的特性,它是一个键值存储 + 在上一个版本中实现了非常好的分析功能。正如我所看到的,我们正在处理访问不同问题集的不同工具。

于 2015-07-30T15:34:34.667 回答