“google-cloud-dataprep”的相关标签问题

0 投票

1 回答

154 浏览

google-cloud-dataprep - Dataprep 逆序排序不起作用，有什么解决方案吗？

我在 Google Dataprep 中遇到了一个非常烦人的错误。

根据此页面：https ://cloud.google.com/dataprep/docs/html/Window-Transform_57344658 ，应该可以通过在列名前面添加破折号来反转排序顺序。

但是，尽管预览显示数据已正确排序，但输出将始终按升序排序。

我已经以各种方式对其进行了测试，我确信这是系统中的一个错误。

我尝试使用的公式是一个PREV(column_name, 1)未分组的函数，但按column_nameand排序-date。

随后基于此列对数据集进行重复数据删除：If(window==column_name)

希望它会尽快得到解决。目前的情况需要一种解决方法。有谁知道一个优雅的解决方案？

google-cloud-dataprep

2018-04-13T15:05:22.117

0 投票

2 回答

583 浏览

python - python api启动模板未知名称找不到字段

我已经创建并运行了一个 DataPrep 作业，并且正在尝试在应用引擎上使用来自 python 的模板。我可以使用成功开始工作

但是试图在应用引擎上使用python；

我回来了；

我尝试过的任何东西似乎都不支持将 dict 或 json.dumps() 或 str() 传递给“inputLocations”或“outputLocations”。

2018-04-30T09:53:13.020

0 投票

0 回答

175 浏览

google-cloud-dataprep - 谷歌云数据准备联盟

我的数据准备流程中有两个数据集，我正在尝试合并。我收到一条错误消息，指出其中一个数据集已损坏并在尝试合并之前修复。有人可以建议合并两个数据集的最佳方法吗？非常感谢任何帮助。

google-cloud-dataprep

2018-05-01T19:59:34.740

0 投票

1 回答

141 浏览

google-cloud-dataprep - google Dataprep：实例数量和架构优化

我注意到Google dataprep中的每个目的地（无论是手动的还是计划的）都会启动一个计算引擎实例。普通帐户的限制配额最多为 8 个实例。

看这个流程： dataprep flow

由于数据整理由多个层组成，您可能希望通过导出实现中间步骤，那么运行数据准备流程的最佳方法/架构是什么？

选项 A

运行 2 个单独的流程并安排它们 15 分钟。差异：

第一个流程将仅导出最后一步
其他流程将仅导出中间步骤

这样，您不会达到配额限制，但您仍在多次计算同一流程的早期阶段

选项 B

保持流程不变并请求更多 Compute Engine 配额：计算工作量相同，我只会让更多实例并行而不是顺序运行

选项 C

每个步骤都有自己的流程 + 创建参考数据集：这样每个流程只会运行一个步骤。

例如，当我运行作业“1549_first_repo”时，我将不再计算前面的 3 个步骤，而只计算最后一个：引用的“5912_first”表和“1549_first_repo”之间的转换。

最后一个选项在我看来是最合理的，因为每个转换最多运行一次，我错过了什么吗？

而且，有没有办法运行每个按顺序而不是并行运行每个导出？

-- 编辑 30. 五月 --

事实证明，选项 C 不是要走的路，因为“引用”是前一个流程的纯粹延续。您可以将引用数据集之前和引用数据集之后的流想象为单个流。

仍在试图弄清楚如何在不冗余计算相同操作的情况下实现模块化。

google-cloud-dataprep

2018-05-29T15:46:12.220

0 投票

1 回答

181 浏览

google-cloud-platform - Google Dataprep 导入/导出流程

导入/导出流程选项是否仅适用于原始流程来自的同一项目？从流程页面导出流程后，我似乎无法将其导入另一个帐户

谢谢

google-cloud-platform google-cloud-dataprep

2018-05-31T09:22:09.013

0 投票

1 回答

686 浏览

google-cloud-platform - Google Cloud Dataprep 导入配方

我可以看到可以下载食谱，但我看不到任何导入它的选项，有人知道是否有这个选项吗？

google-cloud-platform google-bigquery google-cloud-dataprep

2018-05-31T16:43:19.000

0 投票

1 回答

963 浏览

google-bigquery - 使用 Dataflow API 执行 Dataprep 模板会保存流配方中包含的时间戳

我有一个云函数，它使用数据流 API 从我使用 DataPrep 创建的模板创建新作业。该配方基本上清理了一些 JSON 对象，将它们转换为 CSV 格式，并添加一个时间戳列来获取 BigQuery 数据库中的所有内容。主要思想是对我们平台的某些信息进行快照。

我设法从数据流 API 运行作业，并且数据已正确插入到 bigquery 表中，但是在时间戳字段中，时间戳的值始终相同，它对应于我所在作业的执行时间从（DataPrep 模板）获取模板。当我从 dataprep 界面运行作业时，此时间戳已正确插入，但当我使用云函数中的相同模板执行作业时，它不会更改。

调用数据流 API 的代码片段：

这是 Dataflow 执行控制台快照，可以看到最新的作业是从云功能执行的，底部的作业是从 Dataprep 界面执行的：

数据流控制台快照

这是配方中负责创建时间戳的部分：

Dataprep 配方示例

最后，这是在 BigQuery 表中插入的内容，其中具有相同时间戳（第 4 行）的第一个插入对应于从 Dataprep 执行的作业，其余的是使用 Dataflow API 从云函数执行：

大查询插入

所以问题是我是否有办法让时间戳在插入作业执行期间得到解决，因为现在它看起来像是在模板的配方中固定的。

提前感谢您的帮助。

google-bigquery google-cloud-functions google-cloud-dataflow google-cloud-dataprep

2018-06-05T22:40:25.350

0 投票