0

我正在将 kudu 和 spark 流用于实时仪表板,我的问题是,当我从带有 kudu 表的 spark 流中加入批处理时,它不会对其进行谓词下推,并且需要 2-3 秒才能获取整个spark中的表,然后过滤它。有什么办法可以避免这种情况?

谢谢,

亚历山德鲁

4

1 回答 1

-1

1.Kudu是一个列式存储引擎,所以你可以选择你需要的列。它可以减少从kudu拉取的数据。

2.kudu 谓词下推支持>,<,>=,<=,=,BETWEEN, 或IN 也许你可以缓存数据,在你从kudu 过滤数据之后。并且谓词下推可能会触发。

于 2019-11-13T03:27:03.877 回答