0

我已将“partitionSize”选项设置为多个不同的值,并且无论数量多少,我似乎都得到了相同数量的分区。根据文档,应该对应于 HDFS 块大小。有什么我想念的吗。

HDFS 块大小 64M

创建表 TABLE_TEST (DEFINITION_INFO) 使用 com.sap.spark.vora 选项(表名“TABLE_TEST”,partitionSize “64”,路径“/load_from_here/combined.csv”,eagerLoad “true”)

csv大约是680M

4

1 回答 1

0

参数的名称有点误导。它不是用于分区表,而是在将数据加载到表时影响加载性能。在较新的版本中,它可能会被重命名以避免这种混淆。

于 2016-04-29T22:41:04.407 回答