不必读取会导致过滤器失败的记录有明显的速度优势。我看到 Spark 支持它,但我还没有找到任何关于如何使用 Scalding 进行操作的文档。
问问题
412 次
2 回答
2
不幸的是,在 scalding-parquet 中尚不支持此功能。我们 Tapad 开始致力于在烫伤中实现谓词支持。一旦我们得到一些工作,我们将分享它。
我们已经实现了自己的 ParquetAvroSource,它可以读取/存储 parquet 中的 avro 记录。可以使用列投影并只读烫伤作业所需的列/字段。在某些情况下,使用此功能的作业仅读取 1% 的输入字节。
于 2014-08-10T15:39:20.130 回答
0
谓词下推已添加到 Scalding,但尚未记录。有关更多详细信息,请参阅烫伤问题 #1089
于 2014-12-02T14:06:46.237 回答