0

这个SQL 小提琴说明了我遇到的问题。

作为背景:我有 Jobs、Elements、Role-hours 和 Rates。一个 Job 可以由几个 Elements 组成。一个元素(通常)由一个或多个角色小时(即一个角色和多个小时)组成。每个角色都有一个小时费率,该费率根据日期和作业的客户而有所不同。

在上面的查询中,我试图获得一份工作的财务明细:一份工作的所有元素的列表,以及它们的总成本。事实上,目前,它也在按角色分解这些元素,但这并不是最终查询所必需的。

您可以看到“角色成本”列正确地将小时费率乘以预算小时数以达到该角色的小计。但是,当我尝试对这些字段求和时(在“元素小计”列中),我得到......好吧,这不是我期望的数字。

我怀疑问题出在我的获取最新费率的子查询上,我在此处将其设置为单独的 SQL Fiddle以供参考。它为一个角色返回了不止一个可能的速率:当它重新加入主查询时,它因此 SUMming 太多行。

因此扭曲我的甜瓜的问题是:我需要匹配给定客户的“最佳”费率。也就是说,如果有一个匹配公司 ID客户 ID 的费率,我想要那个。但如果没有,我只想要与公司 ID 匹配的那个。如果没有其中之一,我只想要该角色的“基本”费率。因此,我的联接中的所有“OR __ IS NULL”。

我不知道该怎么做是将它与“只返回一条记录”结合起来,我需要使 SUM() 部分工作。

为长篇道歉。如果你能走到这一步,谢谢。

4

1 回答 1

0

一种方法将涉及相关子查询

SELECT   e.id AS element_id,
         h.role,
         SUM(h.hours_budgeted) AS total_hours_budgeted,
         r.hourly_rate,
         e.pm_amount,
         e.revenue AS fixed_revenue,
         e.revenue_extra,
         SUM(h.hours_budgeted) * r.hourly_rate AS element_subtotal
FROM     job                    j
    JOIN job_element            e ON e.job     = j.id
    JOIN job_element_role_hours h ON h.element = e.id
    JOIN rate                   r ON r.id      = (
           SELECT   id
           FROM     rate
           WHERE    rate.role = h.role
                AND IFNULL(rate.client_company = j.client_company, TRUE)
                AND IFNULL(rate.client_group   = j.client_group  , TRUE)
                AND IFNULL(rate.client_contact = j.client_contact, TRUE)
           ORDER BY rate.client_company DESC,
                    rate.client_group   DESC,
                    rate.client_contact DESC,
                    rate.date_from      DESC
           LIMIT    1
         )
WHERE    j.id = 1
GROUP BY e.id, h.role

sqlfiddle上查看。

但是,相关子查询效率低下并且可能很慢。正如手册所说:

将查询重写为连接可能会提高性能。

为此,必须获得分组最大值

SELECT   e.id AS element_id,
         h.role,
         SUM(h.hours_budgeted) AS total_hours_budgeted,
         r.hourly_rate,
         e.pm_amount,
         e.revenue AS fixed_revenue,
         e.revenue_extra,
         SUM(h.hours_budgeted) * r.hourly_rate AS element_subtotal
FROM     job                    j
    JOIN job_element            e ON e.job     = j.id
    JOIN job_element_role_hours h ON h.element = e.id
    JOIN rate                   r ON r.role    = h.role
           AND IFNULL(r.client_company = j.client_company, TRUE)
           AND IFNULL(r.client_group   = j.client_group  , TRUE)
           AND IFNULL(r.client_contact = j.client_contact, TRUE)
    JOIN (
      SELECT   j.client_company, j.client_group, j.client_contact, r.role,
               MAX(
                 IF(r.client_company <=> j.client_company, 1<<34, 0)
               | IF(r.client_group   <=> j.client_group  , 1<<33, 0)
               | IF(r.client_contact <=> j.client_contact, 1<<32, 0)
               | UNIX_TIMESTAMP(r.date_from)
               ) AS relevance
      FROM     rate r JOIN job j ON
                     IFNULL(r.client_company = j.client_company, TRUE)
                 AND IFNULL(r.client_group   = j.client_group  , TRUE)
                 AND IFNULL(r.client_contact = j.client_contact, TRUE)
      GROUP BY j.client_company, j.client_group, j.client_contact, r.role
    ) t     ON t.role = r.role
           AND t.client_company = j.client_company
           AND t.client_group   = j.client_group
           AND t.client_contact = j.client_contact
           AND t.relevance  = IF(r.client_company <=> j.client_company, 1<<34, 0)
                            | IF(r.client_group   <=> j.client_group  , 1<<33, 0)
                            | IF(r.client_contact <=> j.client_contact, 1<<32, 0)
                            | UNIX_TIMESTAMP(r.date_from)
WHERE    j.id = 1
GROUP BY e.id, h.role

sqlfiddle上查看。

在这里,我通过计算相关性分数找到了与您的尝试类似的分组最大值。然而,我通过一些位旋转,其中 2 34表示是否存在匹配client_company,2 33client_group2 32表示速率,client_contact32 个最低位表示速率date_from- 然后取最大相关分数将产生分数最好的匹配,并再次加入rate表使人们能够获得hourly_rate所需的。

甚至可以进一步改进这一点,以避免计算相关性分数,方法是嵌套以按顺序在每列上找到分组最大值;但是,除非您遇到无法以任何其他方式解决的性能问题,否则可能不值得走这条路。您可以在我对另一个问题的回答中看到该技术。

于 2012-11-28T19:09:04.720 回答