1

我对 Map/Reduce 世界很陌生,并试图评估最佳选择,以确定是否可以利用它在 Solr 中创建索引。目前,我正在使用常规爬网来获取数据并直接在 Solr 中对其进行索引。这工作没有任何问题。

但展望未来,我们需要访问 Amazon S3 中的大量数据。目前 S3 中存储了大约 500 万条数据,需要对其进行索引。我正在考虑使用 Amazon Elastic Map/Reduce (EMR) 直接从 S3 访问内容,然后在 Solr 中创建索引。数据结构简单,url(唯一)是S3 key,value是一个XML文件。url 将用作 Solr 中的 doc id,而 XML 数据的相关部分将作为字段存储在 Solr 索引中。

我的问题是 EMR 是否是正确的方法?任务是从 S3 访问数据,从 XML 中提取某些元素,进行一些处理,然后调用 Solr API 来生成索引。在索引数据之前,处理部分需要几个类,可能是命令模式链。这是可以实现的吗?Doo 我需要一个减速器还是可以使用映射器来完成这个过程?如果需要减速器,它的范围是什么?目前,我有一个存储数据的索引。

对此的任何指示将不胜感激。

谢谢

4

1 回答 1

0

您可以尝试使用 MapReduceIndexer 工具。您可以从 apache-sole 下载它。它是 contrib 模块的一部分。

于 2014-05-22T08:31:59.150 回答