linux - 在 linux 机器上使用 s3a 失败 > 100 列镶木地板

Question

我正在使用 s3a 从数据库读取数据帧并写入 .parquet(s3a://bucketname//folder)。它适用于 <100 列数据框，但 crash.exits spark-shell 用于 >~100 列。如果这是列限制/版本问题/内存问题，找不到任何材料？希望从有经验的社区中找到一些方向。

PS。与以下相同的代码适用于我本地机器上的 Eclipse Windows，但在 linux 实例上出现问题

spark版本- 2.4.0-cdh6.3.3 scala版本- 2.11.12 Java版本- 1.8

def execute(sql:String) = {//defined connection }
val df_sql = ("select * from sampletable")
val df_exe = execute(df_sql)
df_exe.write.parquet(s3a://bucketname/folder)

score 1 · Accepted Answer

找到答案，以防有人遇到这个问题。调用 spark-submit 时，增加驱动程序内存以适应正在写入的文件的 1 个分区。我用了16g

linux - 在 linux 机器上使用 s3a 失败 > 100 列镶木地板

1 回答 1

Related

Reference