1

我有一个包含大量数据的弹性搜索集群。我想将所有数据从 elasticsearch 提取到 Hadoop(Hive)中。我使用 Elasticsearch-Hadoop 驱动程序通过使用 Hive 外部表从 Elasticsearch 中提取数据,但它太慢并且总是无法完成任务。

我的第一个问题是从我现有的 elasticsearch 集群中获取所有数据。第二个问题是在一天或一小时内复制一次流入 HDFS 上的 elasticsearch 的所有数据。

我怎样才能实现这些?

提前致谢。

4

1 回答 1

0

您可以使用hadoop系统作为仓库来存储数据,您可以将数据推送到elasticsearch,反之亦然。尝试仅对您想要分析的数据使用elasticsearch,从elasticsearch中删除其余数据。因此,每次您想对不同方面进行分析时,都会从 hadoop 中提取数据并使用它。

于 2015-04-10T10:01:11.200 回答