我刚刚获得了一大组文本文件(总共 8 GB),其中包含美国境内的所有地址范围。该文件集包括:
929 个 ZIP+4 文件,每个文件都包含唯一的三位邮政编码的邮政地址。例如,文件 606 将仅包含具有以 606 开头的五位数邮政编码的地址。这些文件中的记录总数约为 3000 万。
City State 文件,包含邮政编码及其对应城市和州的完整列表。
City State Key 可用于将 City State 文件加入 ZIP+4 文件。
鉴于数据库的大小和我缺乏经验,我想在开始这项工作之前获得一些见解。ZIP+4 文件应该合并成一个怪物文件,然后使用邮政编码进行索引,还是用三位邮政编码分隔,以便将三位邮政编码文件名用作块匹配标准?如果是后者,那这不是分层数据库模型吗?我可以使用分层模型来适应与 City State 文件的关系吗?
上面对数据集的描述是一个巨大的简化,但出于这个问题的目的,没有必要进行详细的描述。完整的描述可以在这里找到。
我正在使用 Python,但尚未决定使用 RDBMS。任何帮助将非常感激!