performance - Apache Druid 批量摄取 - 索引任务的低性能

Question

我阅读了以下教程： http ://druid.io/docs/latest/tutorials/tutorial-loading-batch-data.html 并使用 index_task 将数据放入 druid。我还发出了时间边界查询，一切正常。

但是，当我尝试插入大量数据（~ 2 000 000 条记录）时，它需要太多时间。

是否可以提高 index_task 的性能以及如何做到这一点？

是否可以通过：

段粒度的变化？
用 HadoopDruidIndexer 替换 index_task？
将数据拆分为更小的部分并同时插入？
增加节点数或每个节点的内存？
还要别的吗？

请帮忙。

score 3 · Accepted Answer

我们遇到了同样的问题，索引任务不是很优化以摄取大量数据。他们在文档中写道：“但是，当数据量超过 1G 时，它们会变慢。” 最好使用实时摄取 (Tranquility) 或Index Hadoop Task。如果您需要批量摄取大量数据，索引 Hadoop 任务是最佳解决方案。它可以很好地扩展并且速度明显更快。

score 1 · Accepted Answer

最近关于 druid 的工作对索引任务进行了重大改进。索引 Hadoop 任务和索引任务也都做同样的事情。

performance - Apache Druid 批量摄取 - 索引任务的低性能

2 回答 2

Related

Reference