0

实际上,在 ML 管道组件中,我们清楚地指定了输入和输出。

例如,在 TFX statisticgen 中,从 examplegen 获取输入并输出一些统计信息。所以输入和输出很清楚,在所有组件中都是相同的。所以为什么我们需要协调器。如果有人知道请帮助我?

4

1 回答 1

1

在现实生活中的项目中,一切都可能要复杂得多:

  • 输入数据可以来自不同的来源:数据库、文件系统、第三方服务。因此,我们需要先进行经典的 ETL,然后才能开始处理数据。
  • 您可以在一个管道中使用不同的技术。例如,Spark 作为预处理工具,在您需要使用带有 GPU 的实例进行模型训练之后。

  • 最后但并非最不重要的一点 - 在生产中你需要关心更多的事情。例如数据验证、模型评估等。我单独写了一篇关于如何使用Apache Airflow组织这部分的文章。

于 2020-06-12T07:03:05.687 回答