我有需要查询的大数据事件 (TB),并且我正在尝试对其进行正确分区。
我有客户,每个客户都有很多游戏。问题是我们查询的某些字段在某些事件中可能为空,因此它们不能用作分区(例如:段)。
我想到了2个策略:
- 分区方式:客户端/游戏/日期(S3)
- 每个客户端或游戏不同的表,并且仅按日期分区。不同的桶。
选项 1 很简单 - 我在 where 子句中进行过滤。选项 2,将需要工会。
分区此类数据的正确方法是什么?正确的意思是最有效和最具成本效益的?
问候,伊多
我有需要查询的大数据事件 (TB),并且我正在尝试对其进行正确分区。
我有客户,每个客户都有很多游戏。问题是我们查询的某些字段在某些事件中可能为空,因此它们不能用作分区(例如:段)。
我想到了2个策略:
选项 1 很简单 - 我在 where 子句中进行过滤。选项 2,将需要工会。
分区此类数据的正确方法是什么?正确的意思是最有效和最具成本效益的?
问候,伊多