1

是否有用于控制在 Presto 中使用 INSERT 或 CREATE TABLE AS 写入的文件数量的配置?寻找与 Spark 对应物相似或相同的东西spark.sql.shuffle.partitions = 1

我希望减少使用 INSERT 生成的小文件的数量,以避免使用上述 spark 配置在 Spark 中产生额外的 ETL。这可能吗?我在 Presto 文档中没有找到与此相关的任何内容。

4

1 回答 1

5

您无法直接控制输出文件的数量,但您可以通过打开scale-writers配置选项(或scale_writers会话属性)来减少写入的文件数量。将以下内容添加到config.properties文件中:

scale-writers=true

启用该选项后,Trino(以前称为 PrestoSQL)将使用所需的最少编写器数量,并根据吞吐量根据需要进行扩展。

请参阅Trino Community Slack上的讨论:

https://trinodb.slack.com/archives/CFLB9AMBN/p1564046069087800?thread_ts=1563945529.046400&cid=CFLB9AMBN

不幸的是,截至 Presto 327 尚未记录此选项。我创建了一个问题来跟踪对文档的改进:https ://github.com/trinodb/trino/issues/2352 。

于 2019-12-26T20:59:36.547 回答