需要从oracle数据库中提取数据并存储在谷歌云平台中。数据约为 10 TB。可以通过 Spark 实现吗?数据必须每月传输一次。在 GCP 中存储和处理的数据如下:
Oracle 数据库到云存储(不必进行 CSV 导出),然后它将在 Dataprep 中进行清理和准备,这将通过 Dataflow 进行进一步处理,然后最后将存储在 Big Query 下(来自大查询数据科学家将使用数据他们的模型创建)。
在此期间不得使用第三方工具。允许使用任何开源工具。
我正在考虑从 spark 中提取数据(尽管使用 DataProc 进行 spark 作业)并将其存储在 GCP(任何一个云存储或大表或大查询)中。通过云 sql - 这是不可能的,因为它不支持 oracle 数据库。
如果我的上述逻辑错误,任何新架构也可以。请建议。谢谢你。