1

我有用户表(用户名,性别,date_of_birth,zip),其中用户的 id 是永久的,但用户可以在过去多次注册,有时他填写所有数据,有时不填写。除此之外,他可以更改居住地(在这种情况下 zip 可以更改)。

所以查询

SELECT username, sex, date_birth, zip FROM users_log WHERE username IN('user1', 'user2', 'user3')

返回以下结果:

"user1";"M";"1982-10-04 00:00:00";"6320"
"user2";"";"";"1537"
"user3";"";"";"1537"
"user3";"";"";"1000"
"user3";"";"";"1000"
"user3";"";"1979-05-29 00:00:00";"1000"
"user3";"";"";"1537"
"user3";"";"1979-05-29 00:00:00";"1000"
"user1";"";"";"1000"
"user3";"";"";"1537"

在这种情况下,用户 1 已更改住所;邮政编码已更改;“属于”他的第二行不包含人口统计数据。User3 也有多条记录,只有两条记录包含人口统计数据。

我想做的是将用户与包含最多关于他的数据的行绑定,并考虑包含在行中的 zip 与最知名的值。有谁知道如何编写适当的查询?

谢谢!

4

2 回答 2

6

这会很痛苦;非常痛苦。

您的问题不清楚这个问题,但我假设您所指的“用户 ID”是用户名。如果这是错误的,则需要进行相应的修改。

与任何复杂的查询一样,分阶段构建它。

第 1 阶段:每条记录有多少个非空字段?

SELECT username, sex, date_of_birth, zip,
       CASE WHEN sex           IS NULL THEN 0 ELSE 1 END +
       CASE WHEN date_of_birth IS NULL THEN 0 ELSE 1 END +
       CASE WHEN zip           IS NULL THEN 0 ELSE 1 END AS num_non_null_fields
  FROM users_log

第 2 阶段:给定用户名的最大字段数是多少?

SELECT username, MAX(num_non_null_fields) AS num_non_null_fields
  FROM (SELECT username, sex, date_of_birth, zip,
               CASE WHEN sex           IS NULL THEN 0 ELSE 1 END +
               CASE WHEN date_of_birth IS NULL THEN 0 ELSE 1 END +
               CASE WHEN zip           IS NULL THEN 0 ELSE 1 END AS num_non_null_fields
          FROM users_log
       ) AS u
 GROUP BY username

第 3 阶段:为具有最大数量的非空字段的给定用户选择(全部)行:

SELECT u.username, u.sex, u.date_of_birth, u.zip
  FROM (SELECT username, MAX(num_non_null_fields) AS num_non_null_fields
          FROM (SELECT username, sex, date_of_birth, zip,
                       CASE WHEN sex           IS NULL THEN 0 ELSE 1 END +
                       CASE WHEN date_of_birth IS NULL THEN 0 ELSE 1 END +
                       CASE WHEN zip           IS NULL THEN 0 ELSE 1 END AS num_non_null_fields
                  FROM users_log
               ) AS u
         GROUP BY username
       ) AS v
  JOIN (SELECT username, sex, date_of_birth, zip,
               CASE WHEN sex           IS NULL THEN 0 ELSE 1 END +
               CASE WHEN date_of_birth IS NULL THEN 0 ELSE 1 END +
               CASE WHEN zip           IS NULL THEN 0 ELSE 1 END AS num_non_null_fields
          FROM users_log
       ) AS u
    ON u.username = v.username AND u.num_non_null_fields = v.num_non_null_fields;

现在,如果某人有多行(比如说)填写了所有三个字段,那么所有这些行都将被返回。但是,您没有指定在这些行之间进行选择的任何标准。

这里的基本技术可以适应任何变化的需求。关键是随时构建和测试子查询。

这些 SQL 都没有靠近 DBMS。它可能有错误。

您尚未指定您使用的 DBMS。然而,Oracle 似乎不喜欢用于表别名的 AS 表示法,尽管它在列别名上使用 AS 没有问题。如果您使用任何其他 DBMS,则不必担心这种小怪癖。

于 2012-04-20T09:05:50.500 回答
5

幸运的是,您使用的是 PostgreSQL。通过将布尔值转换为整数来计算填充的字段更容易:

SELECT username, 
   ( 
      (sex is not null)::int 
    + (date_birth_birth is not null)::int 
    + (zip is not null)::int
   ) / 3.0 as percent_complete
FROM users_log

您的代码目标与此问题相似:
Postgresql: Calculate rank by number of true OR clauses

于 2012-04-20T09:11:33.850 回答