我在 scylla 中有一个表,称之为“tablex”,在键空间“keyspacey”中,现在,我将数据从它加载到 Spark 中,我观察到大量的分区,挖掘我看到它使用的代码mean_partition_size
,可以使用以下查询看到:
SELECT range_start, range_end, partitions_count, mean_partition_size FROM system.size_estimates WHERE keyspace_name = 'keyspacey' AND table_name = 'tablex';
tablex 有 586 行,每一行由时间戳、文本、文本、bigint 组成。
运行上面的查询,我得到了 256 行,都具有 partition_count=1 和 nean_partition_size=5960319812。
问题的原因可能是什么以及如何解决?