1

我阅读了以下教程: http ://druid.io/docs/latest/tutorials/tutorial-loading-batch-data.html 并使用 index_task 将数据放入 druid。我还发出了时间边界查询,一切正常。

但是,当我尝试插入大量数据(~ 2 000 000 条记录)时,它需要太多时间。

是否可以提高 index_task 的性能以及如何做到这一点?

是否可以通过:

  • 段粒度的变化?

  • 用 HadoopDruidIndexer 替换 index_task?

  • 将数据拆分为更小的部分并同时插入?

  • 增加节点数或每个节点的内存?

  • 还要别的吗?

请帮忙。

4

2 回答 2

3

我们遇到了同样的问题,索引任务不是很优化以摄取大量数据。他们在文档中写道:“但是,当数据量超过 1G 时,它们会变慢。” 最好使用实时摄取 (Tranquility) 或Index Hadoop Task。如果您需要批量摄取大量数据,索引 Hadoop 任务是最佳解决方案。它可以很好地扩展并且速度明显更快。

于 2016-01-06T08:54:30.600 回答
1

最近关于 druid 的工作对索引任务进行了重大改进。索引 Hadoop 任务和索引任务也都做同样的事情。

于 2016-02-19T22:34:11.210 回答