What are file formats supported by Presto? Is there any specific file formats recommended for better performance. I would be interested to know if there is any columnar file format like RCfile that's optimized for Presto?
5 回答
我们使用 Parquet、ORC、RCFile、Avro、SequenceFile、TextFile 和其他格式测试每个Trino(以前称为 PrestoSQL)版本,但 Presto 应该支持任何标准的 Hadoop 文件格式。在 Facebook,我们的大部分数据都是 ORC 格式,所以目前这种格式在 Presto 上的性能最好。
最佳优化是 ORC。Parquet 也很不错,多亏了 Netflix,更多的优化即将到来。
对于当前版本的presto,我推荐使用ORC文件,Dain在presto中完成了新的ORC阅读器,速度非常快。这是博客 https://code.facebook.com/posts/370832626374903/even-faster-data-at-the-speed-of-presto-orc/
目前 Presto 支持 Text、SequenceFile、RCFile、ORC 和 Parquet 文件格式。参考:https ://prestodb.io/overview.html
Hive 连接器支持以下文件类型: •ORC •Parquet •Avro •RCFile •SequenceFile •JSON •Text 在我的实践中,最佳优化格式是ORC 和Parquet。