我想直接在 AWS S3 中生成 TPC-DS 数据(1 TB 和 10 TB),而不是从本地机器传输到 s3。最简单的方法是什么?
问问题
629 次
1 回答
1
几个月前我做了类似的工作,hive-testbench可以是一个选项。检查README.md
关于如何实现它。
您需要fs.defaultFS
在$HADOOP_HOME/etc/hadoop/core-site.xml
AWS S3 存储桶中进行配置,数据将直接在 AWS 中生成。
将数据比例参数传递给以./tpcds-setup.sh
生成具有不同比例的日期。
于 2019-11-13T14:04:25.773 回答