2

这是我的数据:

ID      FName   LName   data1   data2
1       John    Doe     xxx1    
2       John    Doe     xxx2    yyy2

这是我想要的结果:

ID      FName   LName   data1   data2
1       John    Doe     xxx1    yyy2

简而言之,我有一张桌子,里面有很多人,而且这张桌子是从具有不同数据和 ID 的多个来源填充的。我想要的是,对于我找到的每个重复项以及表格视图中的每一列,如果该单元格中存在数据,那么,如果存在,则尝试将其转储到该人的最旧记录中,如果有数据,没做什么。

我不知道我是否说清楚了。

最好的方法应该是什么?我应该写一个存储过程还是可以用一个我还没有想出的聪明的查询来完成?

4

2 回答 2

2

您可以像这样创建自定义聚合:

CREATE FUNCTION remember_first(acc text, newval text) RETURNS text AS $$
BEGIN
    RETURN COALESCE(acc, newval);
END;
$$ LANGUAGE plpgsql IMMUTABLE;

CREATE AGGREGATE first(text) (
    sfunc = remember_first,
    stype = text
);

它将返回第一个非null值。然后:

SELECT FName, LName, first(data1), first(data2)
FROM your_table
GROUP BY FName, LName
ORDER BY FName, LName, id -- or your ordering columns

获取您需要的数据。最后 - 只需使用它SELECT来更新记录。或者只是VIEW用所需的数据创建一个。

PS聚合函数来自自定义聚合函数

于 2012-11-28T21:21:51.783 回答
2

您可以通过使用连接和窗口函数的查询来解决这个问题:

select nodups.id, nodups.fname, nodups.lname, d1.data1, d2.data2
from
  (select min(id) as id, fname, lname from sample group by fname, lname) nodups
left join
  (select fname, lname, min(data1) as data1
   from (select fname, lname
           , first_value(data1) over (partition by fname, lname order by id) as data1
         from sample where data1 is not null) d1x
   group by fname, lname
  ) d1 using (fname, lname)
left join
  (select fname, lname, min(data2) as data2
   from (select fname, lname
           , first_value(data2) over (partition by fname, lname order by id) as data2
         from sample where data2 is not null) d2x
   group by fname, lname
  ) d2 using (fname, lname)
order by id
;

SQLFiddle

尝试使用您的真实数据针对 Igor 的自定义聚合测试这种方法,看看哪个表现更好。

于 2012-11-29T01:36:54.567 回答