apache-spark - 如何与 tpc-ds benchmark 并行生成表？

Question

如何运行 tpc-ds 数据生成 ( dsdgen)，然后dsqgen以并行分布式模式对这些数据 ( ) 运行查询。我在纱线配置 ( spark.master yarn) 上使用 Spark，并将数据存储在突发缓冲区存储系统上。

score 0 · Accepted Answer

请检查我目前的探索@https ://github.com/dhiraa/spark-tpcds。t t 下有应用程序，可用于并行生成数据。

或者您可以查看我的参考资料@https ://github.com/maropu/spark-tpcds-datagen

在这两种情况下，不要忘记使用选项“--partition-tables”来利用并行生成。

1 回答 1