2

虽然有几个问题来吧关闭。对于我想要的(在我写这个stackoverflow 时已经提出了更多建议,但没有一个能完全捕捉到我的问题),我似乎无法找到摆脱SQL 丛林的方法。

我有一个包含三个字段的表(我们称之为 user_classification_fct):用户、周和类(例如,第 1 周的用户 #1 有一个“常规用户”类,而第 1 周的用户 #2 有一类“不经常使用的用户”)。(顺便说一句,我已经将类实现为 INT,但在整理 SQL 时,我想使用 VARCHAR 形式的易读的东西。)

我想要做的是生成一份汇总报告,说明用户行为总体上是如何变化的:

  1. 第 1 周和第 2 周都有 50 个用户是普通用户,并且......
  2. 第 1 周有 10 个用户是普通用户,但在第 2 周下降为不常用户
  3. 有 5 位用户从第 1 周的不常到第 2 周的常客
  4. ... 等等 ...

让这更棘手的是用户#5000 可能只是在第 2 周才开始使用该服务,因此表中没有第 1 周的记录。在这种情况下,我希望看到第 1 周的 NULL 和第 2 周的“普通用户”(或任何合适的)。表的大小不是严格相关的,但有 5 周的数据我正在查看 4200 万行,所以我不想插入 4 '对于仅在第 5 周或其他时间开始使用该服务的人的“非用户”行。

对我来说,这似乎很明显是在 MySQL 中使用 LEFT 或 RIGHT JOIN 的情况,因为 NULL 应该在“缺失”记录中出现。

我已经尝试在 LEFT JOIN 上同时使用 WHERE 和 AND 条件,但没有得到“正确”的答案(即,在尾随 WHERE 条件的情况下我根本没有得到 NULL 值,或者我的计数太高了在下面使用的 AND 约束的情况下,不同用户的数量(大约 1000 万)。这是我最后一次尝试让这个工作:

SELECT
    ucf1.class_nm AS 'Class in 2012/15',
    ucf2.class_nm AS 'Class in 2012/16',
    ucf3.class_nm AS 'Class in 2012/17',
    ucf4.class_nm AS 'Class in 2012/18',
    ucf5.class_nm AS 'Class in 2012/19',
    count(*) AS 'Count'
FROM
    user_classification_fct ucf5
LEFT JOIN user_classification_fct ucf4 
    ON ucf5.user_id=ucf4.user_id 
        AND ucf5.week_key=201219 AND ucf4.week_key=201218
LEFT JOIN user_classification_fct ucf3 
    ON ucf4.user_id=ucf3.user_id 
       AND ucf4.week_key=201218 AND ucf3.week_key=201217
LEFT JOIN user_classification_fct ucf2 
    ON ucf3.user_id=ucf2.user_id 
       AND ucf3.week_key=201217 AND ucf2.week_key=201216
LEFT JOIN user_classification_fct ucf1 
    ON ucf2.user_id=ucf1.user_id 
       AND ucf2.week_key=201216 AND ucf1.week_key=201215
GROUP BY 1,2,3,4,5;

在查看 stackoverflow.com 上的各种其他问题时,很可能我需要一次执行一个查询并将结果集合并在一起,或者使用括号将它们一对一地链接起来,但是那些方法不是我(还)熟悉的方法,我什至无法获得一个 LEFT JOIN(即第 5 周到第 1 周,删除所有其他周的数据)来返回有用的东西。

任何提示都会非常感谢,我非常感谢在 MySQL 中工作的建议,因为切换数据库产品不是一种选择。

4

1 回答 1

1

您可以通过 group by 执行此操作。我首先将五周内所有可能的组合总结为:

select c_201215, c_201216, c_201217, c_201218, c_201219,
       count(*) as cnt
from (select user_id,
             max(case when week_key=201215 then class_nm end) as c_201215,
             max(case when week_key=201216 then class_nm end) as c_201216,
             max(case when week_key=201217 then class_nm end) as c_201217,
             max(case when week_key=201218 then class_nm end) as c_201218,
             max(case when week_key=201219 then class_nm end) as c_201219
      from user_classification_fct  ucf
      group by user_id
     ) t
group by c_201215, c_201216, c_201217, c_201218, c_201219

这可能会解决您的问题。如果您有 5 个类(包括 NULL),那么这将最多返回 5^5 或 3,125 行。

这适合 Excel,因此您可以在那里进行最终处理。或者,您仍然可以使用数据库。

如果您想提取成对的星期,那么我建议将上述内容放入一个临时表中,例如“t”。并使用联合进行一系列提取:

select *
from ((select '201215' as weekstart, c_201215, c_201216, sum(cnt) as cnt
       from t
       group by c_201215, c_201216
      ) union all
      (select '201216', c_201216, c_201217, sum(cnt) as cnt
       from t
       group by c_201216, c_201217

      ) union all
      (select '201217', c_201217, c_201218, sum(cnt) as cnt
       from t
       group by c_201217, c_201218

      ) union all
      (select '201218', c_201218, c_201219, sum(cnt) as cnt
       from t
       group by c_201218, c_201219
      )
     ) tg
order by 1, cnt desc

我建议将它放在子查询中,因为您不想在如此大的表上使用公共子查询优化来传递消息。您将首先进行总结,然后将数据汇总在一起,从而得出最终答案。

于 2012-08-15T13:14:40.103 回答