postgresql - 处理来自 postgreSQL 数据库的“大数据”（250+ GB）的一些最有效的工作流程是什么？

问问题 2019-05-28T14:12:27.060

48 次

我正在构建一个脚本，它将处理来自单个 postgreSQL 表的超过 250+ GB 的数据。表格的形状约为 150 列 x 74M 行 (150x74M)。我的目标是以某种方式筛选所有数据，并确保每个单元格条目都符合我将负责定义的某些标准。处理完数据后，我想将其通过管道传输到 AWS 实例中。以下是我需要考虑的一些场景：

如何确保每个单元格条目满足其所在列的某些条件？例如，“日期”列中的所有条目都应采用“yyyy-mm-dd”等格式。
哪些工具/语言最适合处理如此大的数据？我经常使用 Python 和 Pandas 模块进行 DataFrame 操作，并且知道该read_sql功能，但我认为在 Python 中处理这么多数据将花费太长时间。

我知道如何在 Python 中逐块手动处理数据，但是我认为这可能效率太低，脚本可能需要 12 多个小时。

简单地说或 TLDR：我正在寻找一种简单、流线型的解决方案来操作和执行对 postgreSQL 数据的 QC 分析。

postgresql - 处理来自 postgreSQL 数据库的“大数据”（250+ GB）的一些最有效的工作流程是什么？

0 回答 0

Related

Reference