我正在尝试基于在 GCS 中存储为镶木地板的文件实现配置单元表,路径类似于 gs://abc/dt=02-02-2019/hr=02(基于 UTC 的物理分区)
现在我想创建两个配置单元表,其中逻辑分区基于时区,一个用于 UTC,另一个用于 CET,我如何进行分区,以便基于日期和小时的分区根据时区选择 dt 和 hr 值。如果它还可以适应日光节约等,那就太好了。
我正在使用气流创建外部蜂巢表。
我正在尝试基于在 GCS 中存储为镶木地板的文件实现配置单元表,路径类似于 gs://abc/dt=02-02-2019/hr=02(基于 UTC 的物理分区)
现在我想创建两个配置单元表,其中逻辑分区基于时区,一个用于 UTC,另一个用于 CET,我如何进行分区,以便基于日期和小时的分区根据时区选择 dt 和 hr 值。如果它还可以适应日光节约等,那就太好了。
我正在使用气流创建外部蜂巢表。
有一个博客很好地解释了这一点https://medium.com/udemy-engineering/supporting-multiple-time-zones-on-hive-with-single-data-source-b884cba46451
基本思想是将数据存储为UTC时间。并按 UTC 小时划分。这样我们就可以有两个蜂巢表。一个蜂巢表按原样指向,即 UTC。但是对于让一个 PT 配置单元表,您会将第 18 小时指向 UTC 第 11 小时,因此每个都会发生映射转换。