要执行源数据准备、数据转换或数据清理,我们应该在什么情况下使用 Dataprep、Dataflow 和 Dataproc?
问问题
11300 次
3 回答
1
Dataproc 和 Dataflow 都是谷歌云上的数据处理服务。这两个系统的共同点是它们都可以处理批处理或流数据。两者还具有更易于使用的工作流模板。但以下是关于两者的区别
Dataproc 旨在在集群上运行。这使其与 Apache Hadoop、hive 和 spark 兼容。创建集群的速度明显更快,并且可以在不中断正在运行的作业的情况下自动扩展集群。
如果您的数据没有使用 spark 或 Hadoop 实现,Dataflow 会更好。它不在集群上运行,而是基于并行数据处理。因此,数据在多个微处理器上被拆分处理,以减少处理时间。
于 2020-06-27T07:48:42.113 回答
0
关于 Dataproc 的重要说明是,Dataprep 提供数据清理并自动识别数据中的异常。它与 Cloud Storage、BigTable 和 BigQuery 集成
于 2020-09-28T04:18:06.780 回答