1

我正在使用 CDH4.4。我有一个当前正在运行的应用程序,它通过 avro 将记录序列化到 hbase 中的单个列中。我正在将此表的当前 solr 索引移动到 solrcloud 中,因此我正在测试 MapReduceIndexerTool 以对整个表进行批量索引。我有一个非常简单的 morphlines 文件,它目前使用“extractHBaseCells”从 HBase 读取记录。

我设置了一个跟踪器概念验证,仅索引 rowkey => id 并将 avro blob 填充到另一个字段中,只是为了验证我可以从 HBase 获取数据到我在 SolrCloud 中的集合,并且有效。但我想解析 avro 并将这些值粘贴到 solrdocuments 上它们自己的字段中,然后再将它们提交给 solrcloud。但似乎“extractHBaseCells”的性质阻止了这一点。如果有一个 hbase reader 命令发出更通用的输出,然后可以流入 morphlines 中的 avro 命令,我相信我可以解决我自己的问题。

是否有任何已知的解决方法来解析已存储在 HBase 中的 avro,或者可能有更多可以解决此问题的 morphlines 命令?

4

2 回答 2

2

您是否能够仅读取 avro 列和 extractAvroPaths 来解析 avro?

http://cloudera.github.io/cdk/docs/0.6.0/cdk-morphlines/morphlinesReferenceGuide.html#extractAvroPaths

或者最坏的情况,一个将 hbase avro 列转换/转换为 avro 对象的 java 操作。

于 2014-02-18T23:46:58.797 回答
0

user1842757 的链接让我走上了正确的道路。我的问题是我的 solr 架构。我的架构中没有定义“_attachment_body”字段或“_attachment_mimetype”字段。这些是 extractAvroPaths 工作所必需的,但这在我发现支持 morphlines 或 hbase-mr-indexer 的任何教程、示例或 pdf 手册中都没有明确说明。

于 2014-02-24T20:46:08.860 回答