我还在学习蜂巢。我参考了几本书来理解蜂巢中的桶的概念。我学到的是,如果我们强制执行分桶,它将创建与桶数完全相同的文件数。
在我的案例中,我每天五次将数据增量加载到分桶表中。例如:如果我有 16 个桶的表,那么每次加载它都会根据哈希/样本创建 16 个文件。所以总共运行 5 次,将创建 80 个文件。
My Question is , if i have table with 16 buckets defined on it with 80 files
in HDFS, will it going to give bucketing benefits ?