5

要执行源数据准备、数据转换或数据清理,我们应该在什么情况下使用 Dataprep、Dataflow 和 Dataproc?

4

3 回答 3

6

数据准备/转换/清理任务都可以看作是 ETL 过程,可以用你提到的任何产品来实现。这个较旧的答案涵盖了 Dataflow 与 Dataproc 问题的基础知识,并包含链接,该链接总结了在这三个之间进行选择时应牢记的内容。

简而言之,您应该考虑熟悉程度(您是否已经使用过 Hadoop 生态系统工具?beam 编程模型?您宁愿通过 UI 工作吗?)和所需的控制级别(dataproc 允许对集群、数据流和数据准备进行更多控制)完全托管的服务)。

更多好读物:

于 2018-06-20T14:13:22.070 回答
1

Dataproc 和 Dataflow 都是谷歌云上的数据处理服务。这两个系统的共同点是它们都可以处理批处理或流数据。两者还具有更易于使用的工作流模板。但以下是关于两者的区别

Dataproc 旨在在集群上运行。这使其与 Apache Hadoop、hive 和 spark 兼容。创建集群的速度明显更快,并且可以在不中断正在运行的作业的情况下自动扩展集群。

如果您的数据没有使用 spark 或 Hadoop 实现,Dataflow 会更好。它不在集群上运行,而是基于并行数据处理。因此,数据在多个微处理器上被拆分处理,以减少处理时间。

于 2020-06-27T07:48:42.113 回答
0

关于 Dataproc 的重要说明是,Dataprep 提供数据清理并自动识别数据中的异常。它与 Cloud Storage、BigTable 和 BigQuery 集成

于 2020-09-28T04:18:06.780 回答