postgresql - 将非规范化数据集批量加载到 PostgreSQL 中的最有效方法？

Question

我已经加载了一个巨大的 CSV 数据集——使用 PostgreSQL 的 COPY 的 Eclipse 的过滤使用数据，它占用了大量空间，因为它没有被规范化：三个 TEXT 列被更有效地重构为单独的表，以便从主表中引用具有外键列的表。

我的问题是：加载所有数据后重构数据库更快，还是创建具有所有约束的预期表，然后加载数据？前者涉及重复扫描一个巨大的表（接近 10^9 行），而后者将涉及对每个 CSV 行执行多个查询（例如，以前见过这种动作类型吗？如果没有，将其添加到动作表中，获取其ID，在主表中创建一个具有正确操作 ID 的行等）。

现在每个重构步骤大约需要一天左右的时间，初始加载也需要大约相同的时间。

score 4 · Accepted Answer

根据我的经验，您希望将您关心的所有数据放入数据库中的临时表中，然后从那里开始，然后通过存储过程尽可能多地执行基于集合的逻辑。当您加载到临时表时，表上没有任何索引。数据加载到表后创建索引。

查看此链接以获取一些提示http://www.postgresql.org/docs/9.0/interactive/populate.html

postgresql - 将非规范化数据集批量加载到 PostgreSQL 中的最有效方法？

1 回答 1

Related

Reference