2

我是 ElasticSearch 的新手,我有一个包含 180 个字段和 1200 万行的文件。我在 ElasticSearch 和 Java 程序中创建了一个索引和类型,但需要 1.5 小时。有没有其他最好的方法可以减少时间将数据加载到 ElasticSearch 中。我尝试了一个 map reduce 程序,但有时它会失败并生成重复的条目,并且比我的顺序程序花费的时间更多。

有人可以提出好的建议吗?

4

1 回答 1

0

您可以在使用 ES-hadoop 插件时禁用推测执行以避免重复条目。在使用 map-reduce 索引数据时,尝试微调批量 api 的批量大小。有关更多信息,请参阅:- https://www.elastic.co/guide/en/elasticsearch/hadoop/current/configuration.html并尝试更改默认值以获得最佳性能。还要尝试增加 ES 堆大小。您也可以使用 Apache Tika 或 ES 的映射器附件插件从文件中提取信息。

希望能帮助到你!

于 2016-04-06T06:28:36.060 回答