我正在尝试使用 sparksql 运行 tpc-ds 基准测试。
在文档中,他们谈到了星型模式和表数。
根据我对hadoop的理解,最好有非规范化的数据,然后你可以像paraquet那样格式化,压缩效果很好。(使用分区进行并行)
我还从 SAS -> https://support.sas.com/resources/papers/data-modeling-hadoop.pdf找到了这份文档
这也是同一个术语。我不是数据仓库专家,所以我会请求帮助我了解如何在 hadoop 中为数据仓库建模数据