1

我正在尝试在 Data Fusion 中设置一个非常简单的管道,该管道从 BigQuery 获取一个表,然后将该数据存储到 Google Cloud Storage 中。通过下面的管道设置,它相当容易。我们首先读取 bigquery 表和架构,然后将数据放入 Google Cloud Storage 存储桶中。这可行,但问题是我运行的每个新传输都会创建一个新地图和一个新文件。我想做的是用我所做的每次新传输覆盖同一文件路径中的单个文件。

在此处输入图像描述

我在这个设置中遇到的问题是,一个新地图和一个新文件会在使用时间戳前缀创建的 Google Cloud Storage 中获取。查看下面的接收器配置,事实上,默认情况下您会看到一个时间戳。

在此处输入图像描述

好吧,这意味着如果我删除前缀,则不应创建新地图。悬停确认了这一点:“如果未指定,则不会将任何内容附加到路径”。

在此处输入图像描述

但是,当我清除此值然后保存时,全时格式会再次自动弹出。我不能使用静态值,因为这会导致错误。例如,我刚刚尝试在 Google Cloud Storage 中创建一个编号为“12”的地图,然后将前缀设置为此,但正如您所猜测的那样,这不起作用。还有其他人遇到这个问题吗?如何摆脱路径后缀,这样我就不会为 Google Cloud Storage 中的每个时间戳获取新地图?

4

1 回答 1

1

这似乎是 Data Fusion UI 的问题。已为此https://issues.cask.co/browse/CDAP-16129提交 JIRA 。

我知道当您再次打开配置时这可能会造成混淆。发生这种情况的原因是,每当您打开配置模式时,我们都会使用插件小部件 json 中的默认值预填充字段(如果不存在值)。

作为一种解决方法,您可以尝试,

导出管道- 配置插件中的所有属性后,您可以导出管道。此步骤应为您下载 JSON,您可以在其中找到属性并将其删除并导入管道并发布,而无需打开特定插件。

或者,只需从插件配置模式中删除该属性,然后直接关闭并发布管道。每次打开插件配置时,UI 都会重新填充该值。删除并关闭模式后,它应该保持该状态,直到您再次打开配置。

希望这可以帮助。

于 2019-12-04T20:13:08.997 回答