实际上,在 ML 管道组件中,我们清楚地指定了输入和输出。
例如,在 TFX statisticgen 中,从 examplegen 获取输入并输出一些统计信息。所以输入和输出很清楚,在所有组件中都是相同的。所以为什么我们需要协调器。如果有人知道请帮助我?
实际上,在 ML 管道组件中,我们清楚地指定了输入和输出。
例如,在 TFX statisticgen 中,从 examplegen 获取输入并输出一些统计信息。所以输入和输出很清楚,在所有组件中都是相同的。所以为什么我们需要协调器。如果有人知道请帮助我?
在现实生活中的项目中,一切都可能要复杂得多:
您可以在一个管道中使用不同的技术。例如,Spark 作为预处理工具,在您需要使用带有 GPU 的实例进行模型训练之后。
最后但并非最不重要的一点 - 在生产中你需要关心更多的事情。例如数据验证、模型评估等。我单独写了一篇关于如何使用Apache Airflow组织这部分的文章。