sql - 在 PostgreSQL 数据库中定期同步数据的最有效方法是什么？

Question

我的 PostgreSQL 9.0.x 数据库中有一个表，cached_projects我主要通过 Rails 应用程序访问它，其架构如下所示：

create_table "cached_projects", :force => true do |t|
  t.string   "name",                               :null => false
  t.datetime "created_at",                         :null => false
  t.datetime "updated_at",                         :null => false
  t.boolean  "localization",    :default => false, :null => false
  t.integer  "base_project_id"
end

该表由 Rake 任务填充，该任务每N分钟运行一次，并执行以下操作：

从 SOAP Web 服务查询所有项目记录（此上下文中的“项目”仅由名称（字符串）和一对布尔值和整数字段组成）。
将数据库中的项目列表与 SOAP 结果同步，丢弃 SOAP 结果中不再存在的任何记录，并添加找到的任何新记录。

进行这种定期同步的最有效方法是什么？重要的是，数据库中的行与 SOAP 结果中给出的记录完全匹配，没有额外内容。

我可以想到两种解决方案，但不确定哪个是最快的（并且性能是一个问题，因为有数万条记录，我想尽可能频繁地同步）：

在每次同步期间，删除所有行cached_projects并为通过 SOAP 服务找到的每个项目插入一个新行。

这将实现拥有完全相同的数据集的目标，但是假设其中绝大多数将保持不变，每次在数据库中删除约 50,000 行的成本会有多高？在数据库中有这么多“流失”是否有不利之处？
在每次同步期间，SELECT 中的所有行cached_projects，将它们存储在临时 Hash 变量中。循环遍历 SOAP 记录并检查每一个记录是否已经在数据库中（使用临时哈希），保留我们找到的数据库记录的 ID 列表，以便它们可以保留在数据库中。比较所有内容后，插入任何新记录的行，删除不应该在表中的记录的行。

这是我目前的解决方案，虽然它也准确地反映了数据，但比较 Rake 任务中的所有记录是相当计算密集型的，每次同步大约需要 3-5 分钟。（实际上，第一次同步，当数据库表为空时，它更快，但在随后的同步中，它必须与所有行进行比较，这更慢。）

我愿意接受其他建议，或者对这些想法中的任何一个进行改进。到目前为止，我一直在我的应用程序代码中寻找解决方案（基于 Ruby 的 rake 任务），但我也对将更多逻辑推入数据库本身的想法感兴趣，因为我对那方面不太熟悉东西的。

score 1 · Accepted Answer

如果您的第一次同步比后续同步快，这意味着将所有数据插入数据库比比较每个数据并修改现有表要快。

我建议您使用TRUNCATE删除表中的所有记录而不是删除，然后将所有记录插入表中。

http://en.wikipedia.org/wiki/Truncate_(SQL)

sql - 在 PostgreSQL 数据库中定期同步数据的最有效方法是什么？

1 回答 1

Related

Reference