是否有用于控制在 Presto 中使用 INSERT 或 CREATE TABLE AS 写入的文件数量的配置?寻找与 Spark 对应物相似或相同的东西spark.sql.shuffle.partitions = 1
。
我希望减少使用 INSERT 生成的小文件的数量,以避免使用上述 spark 配置在 Spark 中产生额外的 ETL。这可能吗?我在 Presto 文档中没有找到与此相关的任何内容。
您无法直接控制输出文件的数量,但您可以通过打开scale-writers
配置选项(或scale_writers
会话属性)来减少写入的文件数量。将以下内容添加到config.properties
文件中:
scale-writers=true
启用该选项后,Trino(以前称为 PrestoSQL)将使用所需的最少编写器数量,并根据吞吐量根据需要进行扩展。
请参阅Trino Community Slack上的讨论:
不幸的是,截至 Presto 327 尚未记录此选项。我创建了一个问题来跟踪对文档的改进:https ://github.com/trinodb/trino/issues/2352 。