1

我正在开发一种产品,该产品涉及到单个表中的大量 upsert 操作。

我们正在处理基于时间的数据并使用具有 7 天块间隔大小的 timescaledb 超表。我们有并发任务,将数据更新插入到单个表中,在极端情况下,我们可能会有 40 个并发任务,每个更新插入大约 250k 行,全部到同一个表中。

最初我们决定采用删除所有旧行然后使用COPY FROM语句插入更新的方法的方法,但是当我们要大规模测试系统时,这些COPYs需要很长时间才能完成,最终导致db的CPU使用率达到 100%,并且变得没有反应。我们还注意到,表的索引大小急剧增加,磁盘使用率达到 100%,SELECT语句执行时间极长(超过 10 分钟)。我们得出结论,其原因是大量删除语句导致索引碎片,并决定采用另一种方法。

按照这篇文章的答案,我们决定将所有数据复制到一个临时表中,然后使用“扩展插入”语句将所有数据插入到实际表中 -

INSERT INTO table SELECT * FROM temp_table ON CONFLICT DO UPDATE...; 

我们的测试表明它有助于解决索引碎片问题,但大约 250K 的大型 upsert 操作仍然需要超过 4 分钟才能执行,并且在此 upsert 过程中SELECT语句需要太长时间才能完成,这对我们来说是不可接受的。

我想知道创建此 upsert 操作的最佳方法是什么,对SELECTs 的性能影响尽可能低。现在唯一想到的是将插入分成更小的块 -

INSERT INTO table SELECT * FROM temp_table LIMIT 50000 OFFSET 0 ON CONFLICT DO UPDATE ...;
INSERT INTO table SELECT * FROM temp_table LIMIT 50000 OFFSET 50000 ON CONFLICT DO UPDATE ...;
INSERT INTO table SELECT * FROM temp_table LIMIT 50000 OFFSET 100000 ON CONFLICT DO UPDATE ...;
...

但是如果我们批量插入,首先将所有数据复制到临时表中有什么好处吗?它会比简单的多行插入语句执行得更好吗?以及如何确定拆分 upsert 时使用的最佳块大小是多少?是否使用临时表并直接从中插入行允许更大的块大小?

有没有更好的方法来实现这一目标?任何建议将不胜感激

4

1 回答 1

4

您可以采取一些措施来加快数据加载速度:

  • 加载数据时表上没有索引或外键(检查约束很好)。我并不是建议您删除所有约束,但您可以例如使用分区,将数据加载到新表中,然后创建索引和约束并将表附加为新分区。

  • 用 加载数据COPY。如果您不能使用COPY,请使用准备好的语句INSERT来节省解析时间。

  • 在单个事务中加载许多行。

  • 设置max_wal_size高,这样您就不会获得不必要的检查点。

  • 获取快速的本地磁盘。

于 2022-02-08T20:01:18.473 回答