我注意到 Apache Flink 没有优化表的连接顺序。目前,它保持用户指定的连接顺序(基本上,它按字面意思接受查询)。我想 Apache Calcite 可以优化连接的顺序,但由于某种原因,这些规则在 Apache Flink 中没有使用。
例如,如果我们有两个表“ R ”和“ S ”
private val tableEnv: BatchTableEnvironment = TableEnvironment.getTableEnvironment(env)
private val fileNumber = 1
tableEnv.registerTableSource("R", getDataSourceR(fileNumber))
tableEnv.registerTableSource("S", getDataSourceS(fileNumber))
private val r = tableEnv.scan("R")
private val s = tableEnv.scan("S")
我们假设' S '是空的,我们想以两种方式连接这些表:
val tableOne = r.as("x1, x2").join(r.as("x3, x4")).where("x2 === x3").select("x1, x4")
.join(s.as("x5, x6")).where("x4 === x5 ").select("x1, x6")
val tableTwo = s.as("x1, x2").join(r.as("x3, x4")).where("x2 === x3").select("x1, x4")
.join(r.as("x5, x6")).where("x4 === x5 ").select("x1, x6")
如果我们要计算tableOne和tableTwo中的行数,两种情况下的结果都为零。问题是评估tableOne将比评估tableTwo花费更长的时间。
有没有什么方法可以自动优化join的执行顺序,甚至可以通过添加一些统计信息来启用可能的plan cost操作?如何添加这些统计信息?
在此链接的文档中,可能需要更改 Table 环境 CalciteConfig 但我不清楚如何去做。
请帮忙。