我刚从加缪开始。
我计划每隔一小时运行一次加缪。我们80000000
每小时处理一次〜消息,平均消息大小为4KB
(我们在 Kafka 中有一个主题)。
我第一次尝试使用10
映射器,复制一个小时的数据需要大约 2 小时,它创建了 10 个大小约为 7GB 的文件。
然后我尝试300
了映射器,它把时间缩短到了大约 1 小时。但它创建了 11 个文件。后来,我尝试使用150
映射器,大约花了 30 分钟。
那么,我该如何选择其中的映射器数量呢?此外,我想在 hadoop 中创建更多文件,因为一种大小增长到 7GB。我必须检查什么配置?