0

我还在学习蜂巢。我参考了几本书来理解蜂巢中的桶的概念。我学到的是,如果我们强制执行分桶,它将创建与桶数完全相同的文件数。

在我的案例中,我每天五次将数据增量加载到分桶表中。例如:如果我有 16 个桶的表,那么每次加载它都会根据哈希/样本创建 16 个文件。所以总共运行 5 次,将创建 80 个文件。

My Question is , if i have table with 16 buckets defined on it with 80 files 
in HDFS, will it going to give bucketing benefits ?
4

1 回答 1

1

您是否为每个增量加载创建不同的表?

您使用的是哪个 Hadoop 发行版?

我正在使用相同的策略,并且每次增量加载都会生成(并覆盖)我定义的相同数量的存储桶。

当我们遇到权限问题时,文件是重复的,因为 hive 表是使用 hive 用户创建的,而填充是使用另一个 (hdfs) 进行的。

在 /user/hive/warehouse 目录中查看表目录的所有者/权限,然后在子目录中查看相同的(所有者/权限)

于 2013-09-25T13:10:15.260 回答