我正在使用 CDH4.4。我有一个当前正在运行的应用程序,它通过 avro 将记录序列化到 hbase 中的单个列中。我正在将此表的当前 solr 索引移动到 solrcloud 中,因此我正在测试 MapReduceIndexerTool 以对整个表进行批量索引。我有一个非常简单的 morphlines 文件,它目前使用“extractHBaseCells”从 HBase 读取记录。
我设置了一个跟踪器概念验证,仅索引 rowkey => id 并将 avro blob 填充到另一个字段中,只是为了验证我可以从 HBase 获取数据到我在 SolrCloud 中的集合,并且有效。但我想解析 avro 并将这些值粘贴到 solrdocuments 上它们自己的字段中,然后再将它们提交给 solrcloud。但似乎“extractHBaseCells”的性质阻止了这一点。如果有一个 hbase reader 命令发出更通用的输出,然后可以流入 morphlines 中的 avro 命令,我相信我可以解决我自己的问题。
是否有任何已知的解决方法来解析已存储在 HBase 中的 avro,或者可能有更多可以解决此问题的 morphlines 命令?