4

非常不言自明的问题。我应该何时使用 Azure ML Notebooks VS Azure Databricks?我觉得这两种产品之间有很大的重叠,其中一种肯定比另一种更好。

我主要在寻找有关数据集大小和典型工作流程的信息。如果我没有面向 Spark 的工作流,为什么要在 AzureML 上使用 Databricks?

谢谢 !

4

1 回答 1

5

@Nethim,从我的观点来看,这些是主要区别:

  1. 数据分布:

    • Azure ML Notebooks 非常适合在单台机器上使用有限数据进行训练。虽然 Azure ML 提供了训练集群,但节点之间的数据分布将在代码中处理。
    • 带有 RDD 的 Azure Databricks 旨在处理分布在多个节点上的数据。当您的数据量很大时,这是有利的。当您的数据量很小并且可以适合放大的单台机器/您正在使用 pandas 数据框时,请使用的 Azure 数据块是一个矫枉过正
  2. 数据清理:Databricks 可以原生支持许多文件格式,并且查询和清理大型数据集很容易,因为这必须在 AzureML 笔记本中自定义处理。这可以使用 aml 笔记本完成,但必须处理清洁和写入商店。

  3. 训练两者都具有分发训练的能力,Databricks 提供内置的 ML 算法,可以作用于该节点上的数据块并与其他节点协调。虽然这可以通过 tf、horovod 等在 AzureMachineLearning 和 Databricks 上完成,

一般来说(只是我的观点),如果数据集很小,aml notebooks 很好。如果数据量很大,那么 Azure databricks 很容易进行数据清理和格式转换。然后可以在 AML 或 databricks 上进行训练。虽然 databricks 有学习曲线,而 Azure ML 可以很容易地使用 python 和 pandas。

谢谢。

于 2020-04-02T10:28:00.850 回答