solr - 需要关于使用 Map/Reduce 创建 solr 索引的建议

Question

我对 Map/Reduce 世界很陌生，并试图评估最佳选择，以确定是否可以利用它在 Solr 中创建索引。目前，我正在使用常规爬网来获取数据并直接在 Solr 中对其进行索引。这工作没有任何问题。

但展望未来，我们需要访问 Amazon S3 中的大量数据。目前 S3 中存储了大约 500 万条数据，需要对其进行索引。我正在考虑使用 Amazon Elastic Map/Reduce (EMR) 直接从 S3 访问内容，然后在 Solr 中创建索引。数据结构简单，url（唯一）是S3 key，value是一个XML文件。url 将用作 Solr 中的 doc id，而 XML 数据的相关部分将作为字段存储在 Solr 索引中。

我的问题是 EMR 是否是正确的方法？任务是从 S3 访问数据，从 XML 中提取某些元素，进行一些处理，然后调用 Solr API 来生成索引。在索引数据之前，处理部分需要几个类，可能是命令模式链。这是可以实现的吗？Doo 我需要一个减速器还是可以使用映射器来完成这个过程？如果需要减速器，它的范围是什么？目前，我有一个存储数据的索引。

对此的任何指示将不胜感激。

谢谢

score 0 · Accepted Answer

您可以尝试使用 MapReduceIndexer 工具。您可以从 apache-sole 下载它。它是 contrib 模块的一部分。

solr - 需要关于使用 Map/Reduce 创建 solr 索引的建议

1 回答 1

Related

Reference