apache-spark - Spark - Kudu 谓词下推

Question

我正在将 kudu 和 spark 流用于实时仪表板，我的问题是，当我从带有 kudu 表的 spark 流中加入批处理时，它不会对其进行谓词下推，并且需要 2-3 秒才能获取整个spark中的表，然后过滤它。有什么办法可以避免这种情况？

谢谢，

亚历山德鲁

score -1 · Accepted Answer

1.Kudu是一个列式存储引擎，所以你可以选择你需要的列。它可以减少从kudu拉取的数据。

2.kudu 谓词下推支持>,<,>=,<=,=,BETWEEN, 或IN 也许你可以缓存数据，在你从kudu 过滤数据之后。并且谓词下推可能会触发。

1 回答 1