Google Cloud Dataprep 看起来很棒,我们已经使用它手动导入静态数据集,但是我想多次执行它,以便它可以使用上传到 GCS 路径的新文件。我可以看到您可以为 Dataprep 设置计划,但我在导入设置中的任何地方都看不到它将如何处理新文件。
这可能吗?似乎是一个明显的需求 - 希望我错过了一些明显的东西。
Google Cloud Dataprep 看起来很棒,我们已经使用它手动导入静态数据集,但是我想多次执行它,以便它可以使用上传到 GCS 路径的新文件。我可以看到您可以为 Dataprep 设置计划,但我在导入设置中的任何地方都看不到它将如何处理新文件。
这可能吗?似乎是一个明显的需求 - 希望我错过了一些明显的东西。
对此有进一步的更新。由于我的问题,2018 年 1 月 23日新版本的 Dataprep包括独立于 Dataprep 重新运行数据流作业的能力。
当您执行 Dataprep 作业时,它将生成一个 Dataflow 模板,您可以使用该模板在将来手动触发作业,并允许传入某些参数。
能够在新文件上触发的步骤(请注意这是测试版,因此 Google 可能会更改确切的流程):