2

不必读取会导致过滤器失败的记录有明显的速度优势。我看到 Spark 支持它,但我还没有找到任何关于如何使用 Scalding 进行操作的文档。

4

2 回答 2

2

不幸的是,在 scalding-parquet 中尚不支持此功能。我们 Tapad 开始致力于在烫伤中实现谓词支持。一旦我们得到一些工作,我们将分享它。

我们已经实现了自己的 ParquetAvroSource,它可以读取/存储 parquet 中的 avro 记录。可以使用列投影并只读烫伤作业所需的列/字段。在某些情况下,使用此功能的作业仅读取 1% 的输入字节。

于 2014-08-10T15:39:20.130 回答
0

谓词下推已添加到 Scalding,但尚未记录。有关更多详细信息,请参阅烫伤问题 #1089

于 2014-12-02T14:06:46.237 回答