我有一个 Cloudera Impala 表格(Parquet 格式)的情况,
表统计数据为:
大小: 23GB行:67M 行大小:约 5KB 列:308
我的 Cloudera 共有 6 个节点 Cloudera 集群(磁盘:每个 84TB,内存:每个 251GB)
Kudu Master 和 Tablet Server 2 个 Master 节点,5 个 Tablet Server(一个节点充当 Tablet Server 和 Master)
这是我的表架构(结构)
CREATE TABLE SRV_REQ_X
PRIMARY KEY (row_id)
PARTITION BY HASH(row_id) PARTITIONS 5
STORED AS KUDU
TBLPROPERTIES ('kudu.table_name'='IMPALA_DATABASE.KUDU TABLE NAME','kudu.master_addresses'='host1:7051,host2:7051','kudu.num_tablet_replicas' = '3')
AS
Select columns* from table*
测试了不同的属性
The properties I have checked and played with are
memory_limit_hard_bytes = Checked with 0 and 1 and 250GB (Same result Tablet
Server Crashes)
maintenance_manager_num = Checked with 1 as well as 4
记录已插入,但有时会出现此错误
报告 Kudu 错误,第一个错误:超时:在 329 次尝试后,无法将 94 个操作批量写入平板电脑 842e935e768f4a419b193e1fb18e3155:无法写入服务器:2d35eb2445e747bea574a5e1af6e0b2a (bda-ptcl15node02.ptcl.net)。 : 写 RPC 到 192.168.228.2:7050 在 179.996s (SENT) 后超时
我需要插入大约 102M 记录的其他表,我无法理解如何针对我的集群调整 Kudu 属性。
PS 进入 Kudu 表的最多记录是 13M,具有以下属性,然后发生超时。
memory_limit_hard_bytes = 250GB
maintenance_manager_num = 4
block_cache_capacity_mb = 130GB
Partitions: 4
请帮忙!!