问题标签 [google-cloud-dataprep]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-cloud-dataprep - Dataprep 逆序排序不起作用,有什么解决方案吗?
我在 Google Dataprep 中遇到了一个非常烦人的错误。
根据此页面:https ://cloud.google.com/dataprep/docs/html/Window-Transform_57344658 ,应该可以通过在列名前面添加破折号来反转排序顺序。
但是,尽管预览显示数据已正确排序,但输出将始终按升序排序。
我已经以各种方式对其进行了测试,我确信这是系统中的一个错误。
我尝试使用的公式是一个PREV(column_name, 1)
未分组的函数,但按column_name
and排序-date
。
随后基于此列对数据集进行重复数据删除:If(window==column_name)
希望它会尽快得到解决。目前的情况需要一种解决方法。有谁知道一个优雅的解决方案?
python - python api启动模板未知名称找不到字段
我已经创建并运行了一个 DataPrep 作业,并且正在尝试在应用引擎上使用来自 python 的模板。我可以使用成功开始工作
但是试图在应用引擎上使用python;
我回来了;
我尝试过的任何东西似乎都不支持将 dict 或 json.dumps() 或 str() 传递给“inputLocations”或“outputLocations”。
google-cloud-dataprep - 谷歌云数据准备联盟
我的数据准备流程中有两个数据集,我正在尝试合并。我收到一条错误消息,指出其中一个数据集已损坏并在尝试合并之前修复。有人可以建议合并两个数据集的最佳方法吗?非常感谢任何帮助。
google-cloud-dataprep - google Dataprep:实例数量和架构优化
我注意到Google dataprep中的每个目的地(无论是手动的还是计划的)都会启动一个计算引擎实例。普通帐户的限制配额最多为 8 个实例。
看这个流程: dataprep flow
由于数据整理由多个层组成,您可能希望通过导出实现中间步骤,那么运行数据准备流程的最佳方法/架构是什么?
选项 A
运行 2 个单独的流程并安排它们 15 分钟。差异:
- 第一个流程将仅导出最后一步
- 其他流程将仅导出中间步骤
这样,您不会达到配额限制,但您仍在多次计算同一流程的早期阶段
选项 B
保持流程不变并请求更多 Compute Engine 配额:计算工作量相同,我只会让更多实例并行而不是顺序运行
选项 C
每个步骤都有自己的流程 + 创建参考数据集:这样每个流程只会运行一个步骤。
例如,当我运行作业“1549_first_repo”时,我将不再计算前面的 3 个步骤,而只计算最后一个:引用的“5912_first”表和“1549_first_repo”之间的转换。
最后一个选项在我看来是最合理的,因为每个转换最多运行一次,我错过了什么吗?
而且,有没有办法运行每个按顺序而不是并行运行每个导出?
-- 编辑 30. 五月 --
事实证明,选项 C 不是要走的路,因为“引用”是前一个流程的纯粹延续。您可以将引用数据集之前和引用数据集之后的流想象为单个流。
仍在试图弄清楚如何在不冗余计算相同操作的情况下实现模块化。
google-cloud-platform - Google Dataprep 导入/导出流程
导入/导出流程选项是否仅适用于原始流程来自的同一项目?从流程页面导出流程后,我似乎无法将其导入另一个帐户
谢谢
google-cloud-platform - Google Cloud Dataprep 导入配方
我可以看到可以下载食谱,但我看不到任何导入它的选项,有人知道是否有这个选项吗?
google-bigquery - 使用 Dataflow API 执行 Dataprep 模板会保存流配方中包含的时间戳
我有一个云函数,它使用数据流 API 从我使用 DataPrep 创建的模板创建新作业。该配方基本上清理了一些 JSON 对象,将它们转换为 CSV 格式,并添加一个时间戳列来获取 BigQuery 数据库中的所有内容。主要思想是对我们平台的某些信息进行快照。
我设法从数据流 API 运行作业,并且数据已正确插入到 bigquery 表中,但是在时间戳字段中,时间戳的值始终相同,它对应于我所在作业的执行时间从(DataPrep 模板)获取模板。当我从 dataprep 界面运行作业时,此时间戳已正确插入,但当我使用云函数中的相同模板执行作业时,它不会更改。
调用数据流 API 的代码片段:
这是 Dataflow 执行控制台快照,可以看到最新的作业是从云功能执行的,底部的作业是从 Dataprep 界面执行的:
这是配方中负责创建时间戳的部分:
最后,这是在 BigQuery 表中插入的内容,其中具有相同时间戳(第 4 行)的第一个插入对应于从 Dataprep 执行的作业,其余的是使用 Dataflow API 从云函数执行:
所以问题是我是否有办法让时间戳在插入作业执行期间得到解决,因为现在它看起来像是在模板的配方中固定的。
提前感谢您的帮助。
google-cloud-platform - 数据准备作业失败
在 dataprep 作业中,我有一个转换失败,唯一的信息是:
作业失败:java.lang.NullPointerException: jobId
。
它甚至不去数据流作业,我没有日志或任何东西。有什么想法为什么,或者如何获得更多信息来纠正这个问题?
regex - 正则表达式重复单词
我需要匹配(不删除)文本中所有重复的单词。
例如:男装·T恤·衬衫·复古·T·衬衫·1990·深·黑·红·文·深·黑·红·文·X-小
深·黑·红·文字·深·黑·红·文字重复。
我找不到任何正则表达式。
请帮忙!
PS 有时它只会匹配一个单词:例如 brown brown,有时是我之前提到的图案。
google-cloud-platform - GCP DataPrep-移动窗口
我有一个以下格式的 CSV 文件,我正试图与 GCP dataprep 争吵。
数据以 5 分钟间隔延长 2 周。我想对其进行转换,以便在每 10 分钟间隔显示前 10 分钟的平均值(或最小值/最大值/中值)并对其进行旋转,这样我得到的最终结果如下:
所以本质上,09:10 的值是 09:00、09:05 和 09:10 的平均值。
09:25 的值将是 09:15,09:20,09:25 的平均值。
我已经尝试过窗口函数和聚合,但似乎无法让它工作。
谢谢您的意见!