0

我在 Hive 中有一堆表,存储为 ORC。我想在 SolrCloud 集合中索引他们的数据。

Solr 中是否支持对存储为 ORC 格式的数据进行索引?我已经用谷歌搜索了,但没有任何结果。

4

2 回答 2

1

看起来您希望SolR从特定 Hive 文件格式读取数据。

您可能会以另一种方式看待问题,即使用Hive将数据写入SolR——从而让 Hive 处理实际输入文件格式的复杂性(无论是 ORC、Parquet、AVRO 等等——甚至是 HBase 数据文件) .

LucidWorks GitHub 存储库中,您将找到一个标有hive-solr的项目。看一看。

于 2017-02-20T18:27:51.887 回答
0

我会接受参孙的回答。

无论如何,我对这个解决方案并不完全满意。其实现在我还是需要手动创建一个外部表来声明原表中的所有字段。在操作上,和从原来的创建一个新的表(存储的广告文本文件)开始,索引新的文本文件,最后丢弃它们没有什么区别(当然,对于非常大的表,这可能是一个问题,即不是我的情况)。

由于 ORC 是一种自描述格式,因此 Solr 可以直接从压缩文件中读取字段名称和数据。

于 2017-02-21T20:25:19.793 回答