1

我在 Lucene 索引中索引了数千个客户名称、替代名称、企业名称等详细信息(索引不存储在 HDFS 中)。

我在 HDFS 中有大量(>100M)个人数据,我想用 Lucene 索引扫描个人数据,我目前正在使用 PIG 处理来自 HDFS 的数据。

我正在尝试查找是否可以运行提取数据并并行执行对 Lucene 索引的查询的 PIG 作业(可能是通过使用自定义编写的 UDF),我无法思考 Lucene 本地索引是如何在其中加载和共享的PIG 作业(在 Lucene 查询后,如果找到匹配项,我需要匹配的文档 ID)。

可以使用 PIG 吗?或者我需要为此编写自定义 map-reduce 作业?或任何其他建议?

谢谢。

4

1 回答 1

1

你肯定需要 UDF——大象鸟的 lucene 加载器是一个很好的起点。在https://github.com/kevinweil/elephant-bird/tree/master/pig查看

于 2013-04-30T08:03:39.470 回答