我配置了一个 Dataprep 流。数据集是一个 GCS 文件夹(其中的所有文件)。目标是 BigQuery 表。
由于数据来自多个文件,我希望文件名与结果数据中的列相同。
那可能吗?
我配置了一个 Dataprep 流。数据集是一个 GCS 文件夹(其中的所有文件)。目标是 BigQuery 表。
由于数据来自多个文件,我希望文件名与结果数据中的列相同。
那可能吗?
更新:现在有一个名为 $filepath 的源元数据引用——如您所料,它将文件的本地路径存储在 Cloud Storage 中(从顶级存储桶开始)。您可以在公式中使用它或将其添加到新的公式列中,然后在其他配方步骤中执行您想要的任何操作。(如果您的数据源示例是在此功能之前创建的,您需要生成一个新示例才能在界面中看到它)
这些元数据字段的完整注释可在此处获得:https ://cloud.google.com/dataprep/docs/html/Source-Metadata-References_136155148
原始答案
目前这不可能开箱即用。如果您手动将数据集与 合并UNION
,您可以首先处理它们以添加包含源的列,以便它随后出现在组合输出中。
如果您要批量提取文件,那将无济于事 - 但有一个开放的功能请求打开,您可以评论和/或关注更新: https ://issuetracker.google.com/issues/74386476