java - 将条目插入 ElasticSearch 的最佳方法是什么？

Question

我是 ElasticSearch 的新手，我有一个包含 180 个字段和 1200 万行的文件。我在 ElasticSearch 和 Java 程序中创建了一个索引和类型，但需要 1.5 小时。有没有其他最好的方法可以减少时间将数据加载到 ElasticSearch 中。我尝试了一个 map reduce 程序，但有时它会失败并生成重复的条目，并且比我的顺序程序花费的时间更多。

有人可以提出好的建议吗？

score 0 · Accepted Answer

您可以在使用 ES-hadoop 插件时禁用推测执行以避免重复条目。在使用 map-reduce 索引数据时，尝试微调批量 api 的批量大小。有关更多信息，请参阅：- https://www.elastic.co/guide/en/elasticsearch/hadoop/current/configuration.html并尝试更改默认值以获得最佳性能。还要尝试增加 ES 堆大小。您也可以使用 Apache Tika 或 ES 的映射器附件插件从文件中提取信息。

希望能帮助到你！

java - 将条目插入 ElasticSearch 的最佳方法是什么？

1 回答 1

Related

Reference