1

我需要从人群中生成一些样本数据。我想在 Oracle 11g 数据库上使用 SQL 查询来做到这一点。

这是一个人口规模为 4 且样本规模为 2 的简单工作示例:

with population as (
    select 1 as val from dual union all 
    select 2 from dual union all 
    select 3 from dual union all 
    select 4 from dual)

select val from (
    select val, dbms_random.value(0,10) AS RANDORDER 
    from  population 
    order by randorder) 
where rownum <= 2

(oracle sample() 函数不适用于我的 WITH 子句)

但现在我,我想“升级”或增加我的样本数据。这样我就可以获得人口数据的 150% 样本数据(例如,人口规模 4 和样本规模 6)

有没有使用 SQL 查询实现此目的的好方法?

4

2 回答 2

1

你可以使用CONNECT BY

with population(val, RANDOMORDER) as (
    select level, dbms_random.value(0,10) AS RANDORDER 
    from dual
    connect by level <= 6
    ORDER BY RANDORDER
)
select val
FROM population
WHERE rownum <= 4;

db<>小提琴演示

于 2018-10-16T14:54:43.133 回答
0

解决方案取决于,如果您想要来自第一个初始集合的所有行和来自最后一个的随机附加行,则使用:

with params(size_, sample_) as (select 4, 6 from dual)
select val 
  from (
    select mod(level - 1, size_) + 1 val, sample_,
           case when level <= size_ * floor(sample_ / size_) then 0 
                else dbms_random.value() 
           end rand
      from params
      connect by level <= size_ * ceil(sample_ / size_)
      order by rand)
  where rownum <= sample_

但是,如果您允许出现类似 (1, 1, 2, 2, 3, 3) 的结果,其中某些值可能根本不会出现在输出中(此处4),请使用以下命令:

with params(size_, sample_) as (select 4, 6 from dual)
select val 
  from (
    select mod(level - 1, size_) + 1 val, sample_, dbms_random.value() rand
      from params
      connect by level <= size_ * ceil(sample_ / size_)
      order by rand)
  where rownum <= sample_

这个怎么运作?我们构建 (1, 2, 3, 4) 的集合的次数与除法的结果一样多sample / size。然后我们分配随机值。在第一种情况下,我分配0给第一组,因此它们肯定会在输出中,并且随机值分配给最后一组。在第二种情况下,随机数被分配给所有行。

于 2018-10-16T16:07:25.590 回答