sql - 百分位数的另一种方法？

Question

我有一个数据集，它基本上由作业批次列表、每个批次中包含的作业数量以及每个作业批次的持续时间组成。这是一个示例数据集：

CREATE TABLE test_data
(
   batch_id    NUMBER,
   job_count   NUMBER,
   duration    NUMBER
);

INSERT INTO test_data VALUES (1, 37, 9);
INSERT INTO test_data VALUES (2, 47, 4);
INSERT INTO test_data VALUES (3, 66, 6);
INSERT INTO test_data VALUES (4, 46, 6);
INSERT INTO test_data VALUES (5, 54, 1);
INSERT INTO test_data VALUES (6, 35, 1);
INSERT INTO test_data VALUES (7, 55, 9);
INSERT INTO test_data VALUES (8, 82, 7);
INSERT INTO test_data VALUES (9, 12, 9);
INSERT INTO test_data VALUES (10, 52, 4);
INSERT INTO test_data VALUES (11, 3, 9);
INSERT INTO test_data VALUES (12, 90, 2);

现在，我想计算持续时间字段的一些百分位数。通常，这是通过以下方式完成的：

SELECT
       PERCENTILE_DISC( 0.75 )
          WITHIN GROUP (ORDER BY duration ASC)
          AS third_quartile
FROM
       test_data;

（结果为 9）

我的问题是我们不想根据批次获得百分位数，我想根据个人工作获得百分比。通过生成job_count的运行总数，我可以很容易地手动计算出来：

SELECT
       batch_id,
       job_count,
       SUM(
            job_count
       )
       OVER (
              ORDER BY duration
              ROWS UNBOUNDED PRECEDING
             )
          AS total_jobs,
        duration
FROM
       test_data
ORDER BY
       duration ASC;

BATCH_ID     JOB_COUNT    TOTAL_JOBS   DURATION     
6            35           35           1            
5            54           89           1            
12           90           179          2            
2            47           226          4            
10           52           278          4            
3            66           344          6            
4            46           390          6            
8            82           472          7            
9            12           484          9            
1            37           521          9            
11           3            524          9            
7            55           579          9

因为我有 579 个工作，所以第 75 个百分位将是工作 434。查看上面的结果集，对应的持续时间为 7，与标准函数的作用不同。

本质上，我想将批次中的每个作业视为单独的观察，并根据这些而不是批次确定百分位数。

有没有相对简单的方法来实现这一点？

score 3 · Accepted Answer

我认为这是“加权”百分位数。我不知道Oracle中是否有内置的分析函数，但计算起来很容易。而你正在路上。

额外的想法是计算作业总数，然后使用算术选择您想要的值。对于第 75 个百分位数，该值是最小持续时间，使得累积作业数大于作业总数的 0.75 倍。

下面是 SQL 中的示例：

select pcs.percentile, min(case when cumjobs >= totjobs * percentile then duration end)
from (SELECT batch_id, job_count,
             SUM(job_count) OVER (ORDER BY duration) as cumjobs,
             sum(job_count) over () as totjobs,
             duration
      FROM test_data
     ) t cross join
     (select 0.25 as percentile from dual union all
      select 0.5 from dual union all
      select 0.75 from dual
     ) pcs
group by pcs.percentile;

此示例为您提供百分位值（作为额外的奖励，对于三个不同的百分位），每个值位于其自己的行中。如果您想要每一行的值，您需要连接回原始表。

score 0 · Accepted Answer

好的。我想我有你的答案。想法是我的。实现是从这篇 Ask Tom 文章中借来的

SELECT PERCENTILE_DISC( 0.75 )
       WITHIN GROUP (ORDER BY duration ASC)
       AS third_quartile
FROM(
with data as
  (select level l
   from dual, (select max(job_count) max_jobs from test_data)
   connect by level <= max_jobs
  )
  select *
  from test_data, data
  where l <= job_count
  --ORDER BY duration, batch_id
  ) inner
;

这是SQL 小提琴。

sql - 百分位数的另一种方法？

2 回答 2

Related

Reference