背景(输入)
全球历史气候学网络在其收集的天气测量数据中标记了无效或错误的数据。删除这些元素后,有大量数据不再具有连续的日期部分。数据类似于:
"2007-12-01";14 -- Start of December
"2007-12-29";8
"2007-12-30";11
"2007-12-31";7
"2008-01-01";8 -- Start of January
"2008-01-02";12
"2008-01-29";0
"2008-01-31";7
"2008-02-01";4 -- Start of February
... entire month is complete ...
"2008-02-29";12
"2008-03-01";14 -- Start of March
"2008-03-02";17
"2008-03-05";17
问题(输出)
尽管可以推断缺失数据(例如,通过其他年份的平均值)以提供连续范围,但为了简化系统,我想根据是否有连续的日期范围来填充月份来标记非连续段:
D;"2007-12-01";14 -- Start of December
D;"2007-12-29";8
D;"2007-12-30";11
D;"2007-12-31";7
D;"2008-01-01";8 -- Start of January
D;"2008-01-02";12
D;"2008-01-29";0
D;"2008-01-31";7
"2008-02-01";4 -- Start of February
... entire month is complete ...
"2008-02-29";12
D;"2008-03-01";14 -- Start of March
D;"2008-03-02";17
D;"2008-03-05";17
一些测量是在 1843 年进行的。
问题
对于所有气象站,您将如何标记月份中缺少一天或多天的所有天数?
源代码
选择数据的代码类似于:
select
m.id,
m.taken,
m.station_id,
m.amount
from
climate.measurement
相关想法
生成一个包含连续日期的表格,并将它们与测量的数据日期进行比较。
- 在 sql 结果中填充空日期的最直接方法是什么(在 mysql 或 perl 端)?
- 如何在连续范围内分组
- http://msdn.microsoft.com/en-us/library/aa175780%28v=sql.80%29.aspx
更新
可以使用本节中的 SQL 重新创建该问题。
桌子
创建表如下:
CREATE TABLE climate.calendar
(
id serial NOT NULL,
n character varying(2) NOT NULL,
d date NOT NULL,
"valid" boolean NOT NULL DEFAULT true,
CONSTRAINT calendar_pk PRIMARY KEY (id)
)
WITH (
OIDS=FALSE
);
生成数据
以下 SQL 将数据插入到表中(id
[int]、n
ame [varchar]、d
ate [date]、valid
[boolean]):
insert into climate.calendar (n, d)
select 'A', (date('1982-01-1') + (n || ' days')::interval)::date cal_date
from generate_series(0, date('2011-04-9') - date('1982-01-1') ) n
insert into climate.calendar (n, d)
select 'B', (date('1982-01-1') + (n || ' days')::interval)::date cal_date
from generate_series(0, date('2011-04-9') - date('1982-01-1') ) n
insert into climate.calendar (n, d)
select 'C', (date('1982-01-1') + (n || ' days')::interval)::date cal_date
from generate_series(0, date('2011-04-9') - date('1982-01-1') ) n
insert into climate.calendar (n, d)
select 'D', (date('1982-01-1') + (n || ' days')::interval)::date cal_date
from generate_series(0, date('2011-04-9') - date('1982-01-1') ) n
insert into climate.calendar (n, d)
select 'E', (date('1982-01-1') + (n || ' days')::interval)::date cal_date
from generate_series(0, date('2011-04-9') - date('1982-01-1') ) n
insert into climate.calendar (n, d)
select 'F', (date('1982-01-1') + (n || ' days')::interval)::date cal_date
from generate_series(0, date('2011-04-9') - date('1982-01-1') ) n
'A'
通过值'F'
表示在特定日期进行测量的气象站的名称。
删除随机行
删除一些行如下:
delete from climate.calendar where id in (select id from climate.calendar order by random() limit 5000);
尝试#1
以下不会将valid
标志切换到false
一个月中缺少一天或多天的所有天:
UPDATE climate.calendar
SET valid = false
WHERE date_trunc('month', d) IN (
SELECT DISTINCT date_trunc('month', d)
FROM climate.calendar A
WHERE NOT EXISTS (
SELECT 1
FROM climate.calendar B
WHERE A.d - 1 = B.d
)
);
尝试#2
以下 SQL 生成一个空结果集:
with gen_calendar as (
select (date('1982-01-1') + (n || ' days')::interval)::date cal_date
from generate_series(0, date('2011-04-9') - date('1982-01-1') ) n
)
select gc.cal_date
from gen_calendar gc
left join climate.calendar c on c.d = gc.cal_date
where c.d is null;
尝试#3
以下 SQL 生成站名和日期的所有可能组合:
select
distinct( cc.n ), t.d
from
climate.calendar cc,
(
select (date('1982-01-1') + (n || ' days')::interval)::date d
from generate_series(0, date('2011-04-9') - date('1982-01-1') ) n
) t
order by
cc.n
然而,在实际数据中,有数百个站点,并且日期可以追溯到 1800 年代中期,因此所有站点的所有日期的笛卡尔坐标都太大。如果有足够的时间,这种方法可能会奏效……必须有更快的方法。
尝试#4
PostgreSQL 有窗口函数。
谢谢!