9

我必须导入没有时区信息的数据(但是,我知道我要导入的数据的具体时区),但我需要timestamp with time zone数据库中的格式。一旦我导入它并将时间戳数据类型设置为timestamp with time zone,Postgres 将自动假定表中的数据来自我的时区并将我的时区分配给它。不幸的是,我要导入的数据不是来自我的时间范围,所以这不起作用。

该数据库还包含具有不同时区的数据。但是,一个表中的时区始终是相同的。

现在,我可以在导入数据(使用命令)之前将数据库的时区设置为我要导入的数据SET time zone的时区,并在导入完成后将其更改回我的时区,我很确定已经存储的数据不受数据库时区变化的影响。但这似乎是一种非常肮脏的方法,以后可能会导致问题。

我想知道是否有一种更优雅的方式来指定导入的时区,而数据本身没有时区数据?

另外,我还没有找到在导入后编辑时区信息的方法。有没有办法不转换,而只是编辑整个表的时区,假设整个表具有相同的时区偏移量(即,如果在数据输入/导入时分配了错误的时区)?

编辑:
我设法在导入时指定了一个时区,整个命令是:

set session time zone 'UTC';
COPY tbl FROM 'c:\Users\Public\Downloads\test.csv' DELIMITERS ',' CSV;
set session time zone 'CET';

然后使用会话时区导入数据。我认为这对同时来自其他连接的数据库上的任何其他查询没有影响?

编辑 2:
我后来发现了如何更改表的时区:
PostgreSQL update time zone offset

我想在导入后更改表的时区然后使用 session 临时更改本地时区会更优雅。当然,假设整个表具有相同的时区。

所以现在的代码应该是这样的:

COPY tbl FROM 'c:\Users\Public\Downloads\test.csv' DELIMITERS ',' CSV;
UPDATE tbl SET <tstz_field> = <tstz_field> AT TIME ZONE '<correct_time_zone>';
4

1 回答 1

12

为导入会话设置时区比稍后更新值要高效得多

我的印象是,您将时区视为适用于表格中其他未更改值的设置。但它根本不是那样的。将其视为输入/输出修饰符。实际timestamp值(带或不带时区)始终在内部存储为 UTC 时间戳(自 以来的秒数'2000-01-01 00:00')。更多细节:

UPDATE您的第二个示例中,表的大小加倍,因为每一行都无效并添加了一个新版本(这就是Postgres中MVCCUPDATE的工作方式)。除了昂贵的操作之外,以后还必须做更多的工作来清理表膨胀。非常低效。VACUUM

会话的本地时区是完全安全的。SET这不会以任何方式影响并发操作。顺便说一句,SET SESSION与普通相同,SET因为SESSION无论如何都是默认值。

如果您想绝对确定,可以使用 将设置限制为当前事务SET LOCAL我在这里引用手册

持续到当前事务结束的效果SET LOCAL,无论是否已提交。在单个事务中SET遵循一种特殊情况:该值将在事务结束之前看到,但之后(如果事务已提交)该值将生效。SET LOCALSET LOCALSET

放在一起:

BEGIN;
SET LOCAL timezone = 'UTC';
COPY tabledata FROM 'c:\Users\Public\Downloads\test.csv' DELIMITERS ',' CSV;
COMMIT;

查看:

SHOW timezone;
于 2012-10-01T18:47:33.060 回答