我正在构建一个脚本,它将处理来自单个 postgreSQL 表的超过 250+ GB 的数据。表格的形状约为 150 列 x 74M 行 (150x74M)。我的目标是以某种方式筛选所有数据,并确保每个单元格条目都符合我将负责定义的某些标准。处理完数据后,我想将其通过管道传输到 AWS 实例中。以下是我需要考虑的一些场景:
- 如何确保每个单元格条目满足其所在列的某些条件?例如,“日期”列中的所有条目都应采用“yyyy-mm-dd”等格式。
- 哪些工具/语言最适合处理如此大的数据?我经常使用 Python 和 Pandas 模块进行 DataFrame 操作,并且知道该
read_sql
功能,但我认为在 Python 中处理这么多数据将花费太长时间。
我知道如何在 Python 中逐块手动处理数据,但是我认为这可能效率太低,脚本可能需要 12 多个小时。
简单地说或 TLDR:我正在寻找一种简单、流线型的解决方案来操作和执行对 postgreSQL 数据的 QC 分析。