6

Google Cloud Dataprep 看起来很棒,我们已经使用它手动导入静态数据集,但是我想多次执行它,以便它可以使用上传到 GCS 路径的新文件。我可以看到您可以为 Dataprep 设置计划,但我在导入设置中的任何地方都看不到它将如何处理新文件。

这可能吗?似乎是一个明显的需求 - 希望我错过了一些明显的东西。

4

2 回答 2

7

对此有进一步的更新。由于我的问题,2018 年 1 月 23日新版本的 Dataprep包括独立于 Dataprep 重新运行数据流作业的能力。

当您执行 Dataprep 作业时,它将生成一个 Dataflow 模板,您可以使用该模板在将来手动触发作业,并允许传入某些参数。

能够在新文件上触发的步骤(请注意这是测试版,因此 Google 可能会更改确切的流程):

  1. 创建您的流程并运行您的相关流程/配方。手动迭代/重复,直到你有你想要的食谱。当您运行愉快时,再次运行该作业(应该是附加数据而不是替换的作业,因为您可能想要附加新内容)。取消选中“配置文件结果”(新功能)以减少开销可能是一个好主意,因为这将是一项可重复的工作。
  2. 完成后,转到 Job details 页面并单击Export Results按钮,您应该会在此处看到指向 Dataflow 模板的链接。复制文本。请注意,Dataflow 模板路径仅适用于2018 年 1 月 23 日发布后执行的作业,因为它是一项新功能。
  3. 然后,您可以通过转到 DataFlow 并选择CREATE JOB FROM TEMPLATE、选择自定义模板并粘贴到模板路径中来查看如何触发数据流作业。在那里您将看到您可以提供的参数,例如您的 GCS 输入路径
  4. 编写一个由 GCS 写入触发的 Google Cloud 函数,并使用事件的详细信息按照上面的步骤 (3) 使用您的文件路径执行模板。
于 2018-01-27T00:11:39.123 回答
6

您可以通过在数据集期间单击文件夹左侧的 + 图标将 GCS 路径添加为数据集(参见屏幕截图)。当您为使用此数据集的流设置计划作业时,该目录中的所有文件(包括新文件)将在每次计划作业运行时被拾取。

在此处输入图像描述

于 2017-12-03T11:07:07.957 回答