我正在运行一个 Python 脚本,它处理许多不同指标的时间序列数据,然后将结果写入 Postgres 数据库。
时间序列假设 40 个 epoch,作为real[40]
数组列存储在数据库中。
当一次将所有 40 个 epoch 的输出写入表时,(所有行的批量更新),一切似乎都运行良好。IE
UPDATE my_table SET
arr_col_1 = {1, 2, 3, ... 40},
arr_col_2 = {1, 2, 3, ...40},
...
arr_col_90 = {1, 2, 3, ...40};
但是,将各个时期的结果迭代地写入阵列中的每个位置似乎会占用硬盘驱动器上的所有可用空间,例如
UPDATE my_table SET
arr_col_1[1] = 1,
arr_col_2[1] = 1,
...
arr_col_90[1] = 1;
UPDATE my_table SET
arr_col_1[2] = 2,
arr_col_2[2] = 2,
...
arr_col_90[2] = 2;
-- repeat x 38 more times
迭代策略的原因是为了容纳更多的行,40 个 epoch 的结果不能同时放入内存。
据我所知,UPDATE
查询会在某些情况下删除和重写行数据,但我不清楚这种情况何时发生以及这可能与数组有什么关系。有没有办法在不导致数据库膨胀的情况下迭代地更新大量行的数组?