hadoop - Hadoop 上的 TPC-DS BenchMark - 为什么使用星型模式

翻译自：https://stackoverflow.com/questions/31173180 2015-07-01T23:14:57.047

212 次

我正在尝试使用 sparksql 运行 tpc-ds 基准测试。

在文档中，他们谈到了星型模式和表数。

根据我对hadoop的理解，最好有非规范化的数据，然后你可以像paraquet那样格式化，压缩效果很好。（使用分区进行并行）

这也是同一个术语。我不是数据仓库专家，所以我会请求帮助我了解如何在 hadoop 中为数据仓库建模数据

0 回答 0