hadoop - 来自 Hadoop PIG 作业的 Lucene 查询

Question

我在 Lucene 索引中索引了数千个客户名称、替代名称、企业名称等详细信息（索引不存储在 HDFS 中）。

我在 HDFS 中有大量（>100M）个人数据，我想用 Lucene 索引扫描个人数据，我目前正在使用 PIG 处理来自 HDFS 的数据。

我正在尝试查找是否可以运行提取数据并并行执行对 Lucene 索引的查询的 PIG 作业（可能是通过使用自定义编写的 UDF），我无法思考 Lucene 本地索引是如何在其中加载和共享的PIG 作业（在 Lucene 查询后，如果找到匹配项，我需要匹配的文档 ID）。

可以使用 PIG 吗？或者我需要为此编写自定义 map-reduce 作业？或任何其他建议？

谢谢。

score 1 · Accepted Answer

你肯定需要 UDF——大象鸟的 lucene 加载器是一个很好的起点。在https://github.com/kevinweil/elephant-bird/tree/master/pig查看

1 回答 1