问题标签 [google-cloud-dataprep]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
154 浏览

google-cloud-dataprep - Dataprep 逆序排序不起作用,有什么解决方案吗?

我在 Google Dataprep 中遇到了一个非常烦人的错误。

根据此页面:https ://cloud.google.com/dataprep/docs/html/Window-Transform_57344658 ,应该可以通过在列名前面添加破折号来反转排序顺序。

但是,尽管预览显示数据已正确排序,但输出将始终按升序排序。

我已经以各种方式对其进行了测试,我确信这是系统中的一个错误。

我尝试使用的公式是一个PREV(column_name, 1)未分组的函数,但按column_nameand排序-date

随后基于此列对数据集进行重复数据删除:If(window==column_name)

希望它会尽快得到解决。目前的情况需要一种解决方法。有谁知道一个优雅的解决方案?

0 投票
2 回答
583 浏览

python - python api启动模板未知名称找不到字段

我已经创建并运行了一个 DataPrep 作业,并且正在尝试在应用引擎上使用来自 python 的模板。我可以使用成功开始工作

但是试图在应用引擎上使用python;

我回来了;

我尝试过的任何东西似乎都不支持将 dict 或 json.dumps() 或 str() 传递给“inputLocations”或“outputLocations”。

0 投票
0 回答
175 浏览

google-cloud-dataprep - 谷歌云数据准备联盟

我的数据准备流程中有两个数据集,我正在尝试合并。我收到一条错误消息,指出其中一个数据集已损坏并在尝试合并之前修复。有人可以建议合并两个数据集的最佳方法吗?非常感谢任何帮助。

0 投票
1 回答
141 浏览

google-cloud-dataprep - google Dataprep:实例数量和架构优化

我注意到Google dataprep中的每个目的地(无论是手动的还是计划的)都会启动一个计算引擎实例。普通帐户的限制配额最多为 8 个实例。

看这个流程: dataprep flow

由于数据整理由多个层组成,您可能希望通过导出实现中间步骤,那么运行数据准备流程的最佳方法/架构是什么?

选项 A

运行 2 个单独的流程并安排它们 15 分钟。差异:

  1. 第一个流程将仅导出最后一步
  2. 其他流程将仅导出中间步骤

这样,您不会达到配额限制,但您仍在多次计算同一流程的早期阶段

选项 B

保持流程不变并请求更多 Compute Engine 配额:计算工作量相同,我只会让更多实例并行而不是顺序运行

选项 C

每个步骤都有自己的流程 + 创建参考数据集:这样每个流程只会运行一个步骤。

例如,当我运行作业“1549_first_repo”时,我将不再计算前面的 3 个步骤,而只计算最后一个:引用的“5912_first”表和“1549_first_repo”之间的转换。

最后一个选项在我看来是最合理的,因为每个转换最多运行一次,我错过了什么吗?

而且,有没有办法运行每个按顺序而不是并行运行每个导出

-- 编辑 30. 五月 --

事实证明,选项 C 不是要走的路,因为“引用”是前一个流程的纯粹延续。您可以将引用数据集之前和引用数据集之后的流想象为单个流。

仍在试图弄清楚如何在不冗余计算相同操作的情况下实现模块化。

0 投票
1 回答
181 浏览

google-cloud-platform - Google Dataprep 导入/导出流程

导入/导出流程选项是否仅适用于原始流程来自的同一项目?从流程页面导出流程后,我似乎无法将其导入另一个帐户

谢谢

0 投票
1 回答
686 浏览

google-cloud-platform - Google Cloud Dataprep 导入配方

我可以看到可以下载食谱,但我看不到任何导入它的选项,有人知道是否有这个选项吗?

0 投票
1 回答
963 浏览

google-bigquery - 使用 Dataflow API 执行 Dataprep 模板会保存流配方中包含的时间戳

我有一个云函数,它使用数据流 API 从我使用 DataPrep 创建的模板创建新作业。该配方基本上清理了一些 JSON 对象,将它们转换为 CSV 格式,并添加一个时间戳列来获取 BigQuery 数据库中的所有内容。主要思想是对我们平台的某些信息进行快照。

我设法从数据流 API 运行作业,并且数据已正确插入到 bigquery 表中,但是在时间戳字段中,时间戳的值始终相同,它对应于我所在作业的执行时间从(DataPrep 模板)获取模板。当我从 dataprep 界面运行作业时,此时间戳已正确插入,但当我使用云函数中的相同模板执行作业时,它不会更改。

调用数据流 API 的代码片段:

这是 Dataflow 执行控制台快照,可以看到最新的作业是从云功能执行的,底部的作业是从 Dataprep 界面执行的:

数据流控制台快照

这是配方中负责创建时间戳的部分:

Dataprep 配方示例

最后,这是在 BigQuery 表中插入的内容,其中具有相同时间戳(第 4 行)的第一个插入对应于从 Dataprep 执行的作业,其余的是使用 Dataflow API 从云函数执行:

大查询插入

所以问题是我是否有办法让时间戳在插入作业执行期间得到解决,因为现在它看起来像是在模板的配方中固定的。

提前感谢您的帮助。

0 投票
1 回答
360 浏览

google-cloud-platform - 数据准备作业失败

在 dataprep 作业中,我有一个转换失败,唯一的信息是:

作业失败:java.lang.NullPointerException: jobId

它甚至不去数据流作业,我没有日志或任何东西。有什么想法为什么,或者如何获得更多信息来纠正这个问题?

0 投票
1 回答
564 浏览

regex - 正则表达式重复单词

我需要匹配(不删除)文本中所有重复的单词。

例如:男装·T恤·衬衫·复古·T·衬衫·1990·深·黑·红·文·深·黑·红·文·X-小

深·黑·红·文字·深·黑·红·文字重复。

我找不到任何正则表达式。

请帮忙!

PS 有时它只会匹配一个单词:例如 brown brown,有时是我之前提到的图案。

0 投票
1 回答
79 浏览

google-cloud-platform - GCP DataPrep-移动窗口

我有一个以下格式的 CSV 文件,我正试图与 GCP dataprep 争吵。

数据以 5 分钟间隔延长 2 周。我想对其进行转换,以便在每 10 分钟间隔显示前 10 分钟的平均值(或最小值/最大值/中值)并对其进行旋转,这样我得到的最终结果如下:

所以本质上,09:10 的值是 09:00、09:05 和 09:10 的平均值。

09:25 的值将是 09:15,09:20,09:25 的平均值。

我已经尝试过窗口函数和聚合,但似乎无法让它工作。

谢谢您的意见!