为什么选择数据融合,因为我需要再运行几个步骤(运行 Data Proc 集群),插入数据库并按计划进行。此外,数据可能会爆炸(10s 的 TB)或缩小(10s 的 GB)。
问问题
134 次
1 回答
0
堆叠几个 TB 文件不是一个好主意。每个对象的存储大小限制为 5TB。
我不知道您需要堆叠文件。
也许 Bigquery 可以成为轻松加载 CSV 文件然后查询文件子集以进行进一步处理的解决方案。但是查询 10s 的 TB 是很昂贵的!(每 TB 5 美元)
如需更多帮助,请添加有关您想要实现的目标的更多详细信息。
于 2019-09-10T16:26:16.293 回答