创建表时在分布上使用多列有好处吗?例如:
CREATE TABLE data_facts (
data_id int primary key,
channel_id smallint,
chart_id smallint,
demo_id smallint,
value numeric)
DISTRIBUTED BY (
channel_id,
chart_id,
demo_id)
因为有机会我需要加入data_facts
三个不同的表channel
,chart
并分别demo
使用channel_id
和。chart_id
demo_id
具体来说,
- 我是否应该始终添加
distribution
并包括id(s)
我用于加入的所有内容以提高效率? - 如果是这样,这些顺序是否
id(s)
重要? - 这在架构级别上是如何工作的?(可选的)
谢谢!