0

我有一个 Hive 表,我正在尝试使用 morphline 将其索引到 SolrCloud,但是,Hive 表后面的数据是一个 20GB 的大文件,morphline 需要很长时间才能处理。

而不是运行多个映射器和缩减器,只能运行 1 个映射器,这可能是因为我们只有一个文件。

yarn jar /opt/<path>/search-mr-1.0.0-cdh5.5.1-job.jar \
org.apache.solr.hadoop.MapReduceIndexerTool \
--morphline-file morphlines.conf \
--output-dir hdfs://<outputdir> \
--zk-host node1.datafireball.com:2181/solr \
--collection <collectionname> \
--input-list <filewherethedatais> \
--mappers 6 

而且它仍然只踢出一份工作......这需要永远,有人能对此有所了解吗?

资源 您可能会觉得有帮助:

  1. Cloudera Mapreduce 批量索引到 Solrcloud
  2. 吗啉所属的Kitesdk。
4

0 回答 0