我对 elasticsearch 和 HBase 有点陌生,但对于一个研究项目,我想将两者结合起来。我的研究项目主要涉及搜索大部分文档(doc、pdf、msg 等),并通过在 HBase 中存储的文档上运行的 mapreduce 作业从文档中提取命名实体。
有谁知道是否有类似于 HBase 的 MongoDB River 插件的东西?或者可以指出一些关于集成 ElasticSearch 和 Hbase 的文档?我在互联网上查看了任何文档,但不幸的是没有任何运气。
亲切的问候,马丁
我对 elasticsearch 和 HBase 有点陌生,但对于一个研究项目,我想将两者结合起来。我的研究项目主要涉及搜索大部分文档(doc、pdf、msg 等),并通过在 HBase 中存储的文档上运行的 mapreduce 作业从文档中提取命名实体。
有谁知道是否有类似于 HBase 的 MongoDB River 插件的东西?或者可以指出一些关于集成 ElasticSearch 和 Hbase 的文档?我在互联网上查看了任何文档,但不幸的是没有任何运气。
亲切的问候,马丁
告诉我您对此https://github.com/posix4e/Elasticsearch-HBase-River的看法。它使用 hbase 日志传送来可靠地处理从 hbase 到弹性搜索集群的更新和删除。它可以很容易地扩展到执行 n 个 regionserver 到 m 个弹性搜索服务器复制。
您可以使用phoenix jdbc driver + es jdbc river如下所示:http: //lessc0de.github.io/connecting_hbase_to_elasticsearch.html
我不知道任何打包的解决方案,但只要你的 mapreduce 以正确的方式准备数据,用你选择的编程语言编写一个简单的批处理作业应该相当容易,从 HBase 读取并提交给 ElasticSearch .
看看这个页面(3年后): http: //lessc0de.github.io/connecting_hbase_to_elasticsearch.html