hadoop - Morphline 读取一个大文件

翻译自：https://stackoverflow.com/questions/35733422 2016-03-01T21:02:04.487

148 次

我有一个 Hive 表，我正在尝试使用 morphline 将其索引到 SolrCloud，但是，Hive 表后面的数据是一个 20GB 的大文件，morphline 需要很长时间才能处理。

而不是运行多个映射器和缩减器，只能运行 1 个映射器，这可能是因为我们只有一个文件。

yarn jar /opt/<path>/search-mr-1.0.0-cdh5.5.1-job.jar \
org.apache.solr.hadoop.MapReduceIndexerTool \
--morphline-file morphlines.conf \
--output-dir hdfs://<outputdir> \
--zk-host node1.datafireball.com:2181/solr \
--collection <collectionname> \
--input-list <filewherethedatais> \
--mappers 6

而且它仍然只踢出一份工作......这需要永远，有人能对此有所了解吗？

资源您可能会觉得有帮助：

Cloudera Mapreduce 批量索引到 Solrcloud
吗啉所属的Kitesdk。

hadoop - Morphline 读取一个大文件

0 回答 0

Related

Reference