-1

我正在编写一个分布式 SQL 查询计划器(查询引擎)。数据将从涉及网络 I/O 的 RDBMS(PostgreSQL) 节点获取。

我想优化 JOIN 查询。

执行的逻辑顺序是:

  1. 做 JOIN(利用 ON 子句)
  2. 对连接的结果应用 WHERE 子句。

我正在考虑先应用过滤器(特定于表的 WHERE 子句),然后再加入。在什么情况下会导致错误的结果?


例子:

SELECT * 
FROM tableA 
LEFT JOIN tableB ON(tableA.col1 = tableB.col1) 
LEFT JOIN tableC ON(tableB.col2 = tableC.col1)
WHERE tableA.colY < 100 AND tableB.colX > 50 

逻辑执行:

  1. joinResult = (tableA left join tableB ON() ) left join tableC ON()
  2. 使用给定的 WHERE 子句过滤 joinResult。

建议执行:

  1. 过滤A = tableA WHERE tableA.colY < 100

    过滤B = tableB WHERE tableB.colX > 50

  2. 结果=(filteredA左连接filteredB ON(..))左连接表C ON(..)

我可以优化这样的任何查询吗?那就是先过滤表,然后在上面应用连接。

编辑:有些人在谈论这个具体的例子时感到困惑。我不是在谈论这个特定的示例查询,我正在编写一个查询计划器,我想处理所有类型的查询

请注意,每张表都被分片并存储在不同的机器上,当前的执行模型是获取每张表然后在本地进行连接。因此,如果我在获取之前应用 WHERE 过滤器,那就更好了。

4

1 回答 1

0

这实际上是一个复杂的话题。

在某些情况下,我们可以过滤表格。我们还可以重新排序外部连接,然后将过滤器 quals 推入内部。

我正在阅读有关此的研究论文,但我还没有完成(可能也没有完成)。

所以现在,对于那些正在寻找答案的人,你可能可以阅读这篇研究论文,特别是第 2.2 节。http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.43.2531&rep=rep1&type=pdf


现在我依赖 PostgreSQL 的规划器并获取它的输出并根据我的要求重建查询。

于 2020-06-09T11:18:40.347 回答