7

我们有一个使用 PostgreSQL 数据库服务器的产品,它部署在几百个客户端上。多年来,其中一些已经收集了数十 GB的数据。因此,在下一个版本中,我们将引入自动清理程序,该程序将在夜间批处理作业中逐步归档和删除旧记录。

如果我理解正确,autovacuum将启动并分析和重组元组,因此性能将与存在较少记录时一样。

如果我理解正确,实际的磁盘空间不会被释放,因为这只发生在VACUUM FULL中,并且不是由autovacuum触发的。

所以我在考虑一个可以做到这一点的自动化流程。

我在http://wiki.postgresql.org/wiki/Show_database_bloat找到了 nagios check_postgres 使用的膨胀视图。

这种观点有好处吗?我是否正确理解如果tbloat > 2,它可以使用 VACUUM FULL?如果ibloat太高,它可以使用 REINDEX 吗?

对以下作为每日批处理作业运行的作业有何评论?

  • vacuumdb -Z mydatabase#vacuum 仅分析
  • select tablename from bloatview order by tbloat desc limit 1
  • vacuumdb -f -t tablename mydatabase
  • select tablename, iname from bloatview order by ibloat desc limit 1
  • reindexdb -t tablename -i iname mydatabase

当然,我仍然需要将它包装在 crontab 中的一个不错的 perl 脚本中(我们使用的是 ubuntu 12),或者 postgresql 是否有某种调度程序我可以使用它?

或者这完全是矫枉过正,是否有更简单的程序?

4

2 回答 2

5

你可能不需要它。最好这样做一次——在第一次归档工作之后,这样你就可以收回你的磁盘空间,但在那之后,你的日常归档工作和 autovacuum 将防止死元组膨胀。

vacuum full通常比运行更好cluster table_name using index_name; analyze table_name。这将根据索引重新排序行。通过这种方式,相关的表行可以物理地保存在磁盘上,这可以限制磁盘查找(在经典磁盘驱动器上很重要,在 SSD 上基本上不相关)和典型查询的读取次数。

请记住,两者vacuum fullcluster都会使您的表在运行时无法使用。

于 2012-12-19T18:42:10.200 回答
3

好的,我努力通过它。

我简化/修改了视图,将其拆分为以下两个:

CREATE OR REPLACE VIEW
    bloat_datawidth AS
SELECT
    ns.nspname AS schemaname,
    tbl.oid   AS relid,
    tbl.relname,
    CASE
        WHEN every(avg_width IS NOT NULL)
        THEN SUM((1-null_frac)*avg_width) + MAX(null_frac) * 24
        ELSE NULL
    END AS datawidth
FROM
    pg_attribute att
JOIN
    pg_class tbl
ON
    att.attrelid = tbl.oid
JOIN
    pg_namespace ns
ON
    ns.oid = tbl.relnamespace
LEFT JOIN
    pg_stats s
ON
    s.schemaname=ns.nspname
AND s.tablename = tbl.relname
AND s.inherited=false
AND s.attname=att.attname
WHERE
    att.attnum > 0
AND tbl.relkind='r'
GROUP BY
    1,2,3;

CREATE OR REPLACE VIEW
    bloat_tables AS
SELECT
    bdw.schemaname,
    bdw.relname,
    bdw.datawidth,
    cc.reltuples::bigint,
    cc.relpages::bigint,
    ceil(cc.reltuples*bdw.datawidth/current_setting('block_size')::NUMERIC)::bigint AS expectedpages,
    100 - (cc.reltuples*100*bdw.datawidth)/(current_setting('block_size')::NUMERIC*cc.relpages) AS bloatpct
FROM
    bloat_datawidth bdw
JOIN
    pg_class cc
ON
    cc.oid = bdw.relid
AND cc.relpages > 1
AND bdw.datawidth IS NOT NULL;

还有 cron 工作:

#!/bin/bash

MIN_BLOAT=65
MIN_WASTED_PAGES=100
LOG_FILE=/var/log/postgresql/bloat.log
DATABASE=unity-stationmaster
SCHEMA=public

if [[ "$(id -un)" != "postgres" ]]
then
echo "You need to be user postgres to run this script."
exit 1
fi

TABLENAME=`psql $DATABASE -t -A -c "select relname from bloat_tables where bloatpct > $MIN_BLOAT and relpages-expectedpages > $MIN_WASTED_PAGES and schemaname ='$SCHEMA' order by wastedpages desc limit 1"`

if [[ -z "$TABLENAME" ]]
then
echo "No bloated tables." >> $LOG_FILE
exit 0
fi

vacuumdb -v -f -t $TABLENAME $DATABASE >> $LOG_FILE
于 2012-12-19T14:27:33.970 回答