0

我有一个运行 7.4 的 Postgres DB(是的,我们正在升级中)

我有四个单独的查询来获取每日、每月、每年和终身记录计数

SELECT COUNT(field)
FROM database
WHERE date_field
    BETWEEN DATE_TRUNC('DAY' LOCALTIMESTAMP) 
    AND DATE_TRUNC('DAY' LOCALTIMESTAMP) + INTERVAL '1 DAY'

对于月份,只需将查询中的单词替换DAYMONTH每个时间段,依此类推。

寻找有关如何通过一个查询获得所有所需结果的想法以及建议的任何优化。

提前致谢!

注意:date_field 是没有时区的时间戳

更新:

抱歉,我确实过滤掉了带有额外查询约束的记录,只是想给出 date_field 比较的要点。抱歉有任何困惑

4

3 回答 3

1

我有一些使用准备好的语句和简单统计(record_count_t)表的想法:

-- DROP TABLE IF EXISTS record_count_t;
-- DEALLOCATE record_count;
-- DROP FUNCTION updateRecordCounts();

CREATE TABLE record_count_t (type char, count bigint);
INSERT INTO record_count_t (type) VALUES ('d'), ('m'), ('y'), ('l');

PREPARE record_count (text) AS
UPDATE record_count_t SET count =
(SELECT COUNT(field)
FROM database
WHERE
CASE WHEN $1 <> 'l' THEN
    DATE_TRUNC($1, date_field) = DATE_TRUNC($1, LOCALTIMESTAMP)
ELSE TRUE END)
WHERE type = $1;

CREATE FUNCTION updateRecordCounts() RETURNS void AS
$$
    EXECUTE record_count('d');
    EXECUTE record_count('m');
    EXECUTE record_count('y');
    EXECUTE record_count('l');
$$
LANGUAGE SQL;

SELECT updateRecordCounts();
SELECT type,count FROM record_count_t;

随时需要更新统计信息时使用 updateRecordCounts() 函数。

于 2011-05-25T19:50:13.360 回答
0

我猜想不可能比现在更进一步优化它。

如果您正在收集每日/每月/每年的统计数据,就像我假设您正在做的那样,一个选项(当然是在升级之后)是with 语句和相关的连接,例如:

with daily_stats as (
(what you posted)
),
monthly_stats as (
(what you posted monthly)
),
etc.
select daily_stats.stats,
       monthly_stats.stats,
       etc.
stats
left join yearly_stats on ...
left join monthly_stats on ...
left join daily_stats on ...

但是,这实际上比在生产环境中单独运行每个查询的性能要差,因为您将在数据库中引入左连接,这可以在中间件中完成(即每天显示,然后每月显示,然后每年显示,最后终身统计)。(如果不是更好,因为您将避免全表扫描。)

通过保持好像,您将节省宝贵的数据库资源来处理对实际数据的读取和写入。折衷(减少数据库和应用程序之间的网络流量)几乎肯定不值得。

于 2011-05-25T19:17:34.800 回答
-1

哎呀!不要这样做!!!不是因为你不能做你所要求的,而是因为你可能不应该以这种方式做你所要求的。我猜您date_field在示例中出现的原因是因为您已date_field附加到用户或其他一些元数据。

想一想:您要求 PostgreSQL 扫描与给定用户相关的 100% 的记录。除非这是一次性操作,否则您几乎肯定不想这样做。如果这是一次性操作,并且您计划将此值缓存为元数据,那么谁在乎优化?空间很便宜,并且可以为您节省大量的执行时间。

您应该为每个用户添加 4 个(或其他)元数据字段,以帮助汇总数据。你有两个选择,我会让你弄清楚如何使用它来保持历史计数,但这里是简单的版本:

CREATE TABLE user_counts_only_keep_current (
  user_id , -- Your user_id
  lifetime INT DEFAULT 0,
  yearly INT DEFAULT 0,
  monthly INT DEFAULT 0,
  daily INT DEFAULT 0,
  last_update_utc TIMESTAMP WITH  TIME ZONE,
  FOREIGN KEY(user_id) REFERENCES "user"(id)
);
CREATE UNIQUE INDEX this_tbl_user_id_udx ON user_counts_only_keep_current(user_id);

设置一些存储过程,如果last_update_utc根据NOW(). 您可以从这里获得创意,但是像这样增加记录将是可行的方法。

在任何关系数据库中处理时间序列数据都需要特殊的处理和维护。如果您想要良好的时间数据管理,请查看 PostgreSQL 的表继承......但实际上,不要对您的应用程序做任何事情,因为它几乎肯定会导致坏事(tm)。

于 2011-05-25T18:20:10.267 回答