sql - SQL 查询优化（嵌套子查询）

Question

我需要写一个查询：

找出 1980 年之前发行的电影的平均收视率与 1980 年之后发行的电影的平均收视率之间的差异。（确保计算每部电影的平均收视率，然后计算 1980 年之前和之后电影的平均收视率。不要' t 只计算 1980 年前后的总体平均评分。）

架构如下：

Movie ( mID, title, year, director )
English: There is a movie with 
ID number mID, a title, a release year, and a director.

Reviewer ( rID, name )
English: The reviewer with ID number rID has a certain name.

Rating ( rID, mID, stars, ratingDate )
English: The reviewer rID gave the movie mID a 
number of stars rating (1-5) on a certain ratingDate.

以下是我提出的查询。结果是正确的，但绝对不是一个很好的查询：

    select t1.p1-t2.p2 from
    (select avg(average) as p1  from 
    (select g.mid,g.average, year from
    (select mid, avg(stars) as average from rating
    group by mid) g, movie
    where g.mid=movie.mid) j 
    where year >= 1980) t1,

    (select avg(average) as p2  from 
    (select g.mid,g.average, year from
    (select mid, avg(stars) as average from rating
    group by mid) g, movie
    where g.mid=movie.mid) j 
    where year < 1980) t2;

以下是我如何得出这个查询。首先，我编写了这个子查询来检索电影 id、该电影的平均评分、电影年份：

    select g.mid,g.average, year from
    (select mid, avg(stars) as average from rating
    group by mid) g, movie
    where g.mid=movie.mid

现在我需要使用相同的子查询来创建两个表，其中第一个表包含 1980 年之后电影的平均评分。第二个表包含 1980 年之前电影的平均评分。在顶级查询中，我减去这两个值。

问题是我在两个地方复制了相同的代码。您能否从代码重复和性能的角度帮助优化代码？

score 2 · Accepted Answer

您可以在没有这样的重复的情况下做到这一点：

Select
  Avg(Case When m.Year >= 1980 Then a.stars Else Null End) -
  Avg(Case When m.Year < 1980 Then a.stars Else Null End)
From (
    Select
      mid,
      avg(stars) stars
    From 
      rating
    Group By
      mid
  ) a 
    inner join
  movie m
    on m.mid = a.mid

您可能希望将内部查询移动到视图或公用表表达式 (CTE)。根据您使用的 dbms，您可能需要将星号转换为十进制类型，或者您可能会以整数运算获得所有内容。

评级表的索引(mid, stars)将有助于性能方面。

示例小提琴

score 1 · Accepted Answer

试一试并假设 SQL Server，有几件事。索引非常重要，查询的编写方式也是如此。

一些 CREATE TABLE 语句

create table Movie ( mID int primary key clustered, title varchar(100), year int, director varchar(100) ) 

create table Reviewer ( rID int primary key clustered, name varchar(100) ) 

create table Rating ( rID int, mID int, stars int, ratingDate datetime , primary key clustered (rID, mID) )

我已经聚集在 Movie 表中的 mID 上，并且聚集在评级表中的 rID 和 mID 字段上，不适合您的查询。

索引：SQL 需要获取电影的所有评分，因此 Rating 表的更好的聚集键是创建表 Rating ( rID int, mID int, stars int, ratingDate datetime , primary key clustered (mID, rID) )

如果您无法更改此类内容，则至少创建一个按 mID 索引并包含 stars 列的覆盖索引。

接下来，您的查询...有几种方法可以编写它 - 最好查看查询计划输出。这是编写查询的一种方式

with 
    MovieAverage as (
        select mID, movieAvgStars = avg(stars)
        from Rating
        group by mID
        ),

    Pre1980 as (
        select MovieAvgStars = avg(  movieAvgStars )
        from MovieAverage
            inner join Movie
                on MovieAverage.mID = Movie.mID
        where Movie.year < 1980
        ),

    IncAndPost1980 as (
        select MovieAvgStars = avg(  movieAvgStars )
        from MovieAverage
            inner join Movie 
                on MovieAverage.mID = Movie.mID
        where Movie.year >= 1980
        )

select IncAndPost1980.MovieAvgStars - Pre1980.MovieAvgStars
from IncAndPost1980 cross JOIN Pre1980

可能还有其他调整方式，但没有样本数据等很难正确判断。

score 0 · Accepted Answer

没有任何效率考虑，也没有考虑任何特定的 DBMS（无论如何，很少有NATURAL连接和 CTE）：

; WITH g AS
    ( SELECT mid, AVG(stars) AS average 
      FROM rating
      GROUP BY mid
    ) 
  , j AS
    ( SELECT mid, average, year 
      FROM g NATURAL JOIN movie
    )
  , t1 AS
    ( SELECT AVG(average) AS p1 
      FROM j
      WHERE year >= 1980
    )
  , t2 AS
    ( SELECT AVG(average) AS p2 
      FROM j
      WHERE year < 1980
    )
  SELECT t1.p1 - t2.p2 AS result
  FROM t1 CROSS JOIN t2 
;

sql - SQL 查询优化（嵌套子查询）

3 回答 3

Related

Reference