我在 Hive 中有一堆表,存储为 ORC。我想在 SolrCloud 集合中索引他们的数据。
Solr 中是否支持对存储为 ORC 格式的数据进行索引?我已经用谷歌搜索了,但没有任何结果。
看起来您希望SolR从特定 Hive 文件格式读取数据。
您可能会以另一种方式看待问题,即使用Hive将数据写入SolR——从而让 Hive 处理实际输入文件格式的复杂性(无论是 ORC、Parquet、AVRO 等等——甚至是 HBase 数据文件) .
在LucidWorks GitHub 存储库中,您将找到一个标有hive-solr的项目。看一看。
我会接受参孙的回答。
无论如何,我对这个解决方案并不完全满意。其实现在我还是需要手动创建一个外部表来声明原表中的所有字段。在操作上,和从原来的创建一个新的表(存储的广告文本文件)开始,索引新的文本文件,最后丢弃它们没有什么区别(当然,对于非常大的表,这可能是一个问题,即不是我的情况)。
由于 ORC 是一种自描述格式,因此 Solr 可以直接从压缩文件中读取字段名称和数据。