2

我有一个大型地理空间数据集(约 30m 记录),我目前正在将其导入 PostgreSQL 数据库。我需要为每条记录分配一个唯一 ID,但递增整数可能不是一个好主意,因为如果我需要重新导入数据集,就无法可靠地重新创建它。

似乎确定投影中几何数据的唯一散列可能是可靠标识符的最佳选择。能够在 Postgres 中计算散列将是有益的,而且速度也将是有益的。

在这种情况下,我的选择是什么?有没有非常适合这种情况的特定方法?

4

1 回答 1

2

如果您需要一个依赖于(并且可以从中重新创建)数据的唯一标识符,最直接的选项似乎是MD5哈希,它包含在 Posgresql 中(不需要额外的库)并且非常有效并且 - 为此场景安全。

pgcrypto模块提供了额外的散列算法,例如 SHA1。

当然,您需要断言要散列的数据是唯一的。

于 2013-04-11T14:58:43.067 回答