hadoop - 在蜂巢的分桶表中增量加载数据？

Question

我还在学习蜂巢。我参考了几本书来理解蜂巢中的桶的概念。我学到的是，如果我们强制执行分桶，它将创建与桶数完全相同的文件数。

在我的案例中，我每天五次将数据增量加载到分桶表中。例如：如果我有 16 个桶的表，那么每次加载它都会根据哈希/样本创建 16 个文件。所以总共运行 5 次，将创建 80 个文件。

My Question is , if i have table with 16 buckets defined on it with 80 files 
in HDFS, will it going to give bucketing benefits ?

score 1 · Accepted Answer

您是否为每个增量加载创建不同的表？

您使用的是哪个 Hadoop 发行版？

我正在使用相同的策略，并且每次增量加载都会生成（并覆盖）我定义的相同数量的存储桶。

当我们遇到权限问题时，文件是重复的，因为 hive 表是使用 hive 用户创建的，而填充是使用另一个 (hdfs) 进行的。

在 /user/hive/warehouse 目录中查看表目录的所有者/权限，然后在子目录中查看相同的（所有者/权限）

1 回答 1