问题标签 [google-cloud-dataprep]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
163 浏览

google-cloud-datastore - Google Dataprep - 替换列中的数据

我已经开始使用 Google 的 Dataprep 解决方案来清理电子商务产品提要。当我从 100 家电子商务商店接收数据时,我想清理数据以保持一致性并重命名品牌名称的各种拼写。例如,我有一列“供应商”,其中有数百万行阿迪达斯拼写不同:

阿迪达斯阿迪达斯阿迪达斯 经典阿迪达斯原件
阿迪达斯 原件 阿迪达斯滑板 阿迪达斯滑板




出于我的要求,我想将所有示例重命名为“adidas”。我正在查看 Dataprep 中的各种例程,并且 Replace 函数可以完成这项工作,但是,它不是一个可扩展的解决方案。

Dataprep 中有没有办法拥有品牌名称的主文件并查找此数据并替换不正确的实例?在 Excel 中,一个简单的 VLOOKUP 可能会起作用,我怀疑这是否存在于 Dataprep 中。

我希望以上内容有意义,谢谢那些可以提供帮助的人。

克雷格

0 投票
1 回答
107 浏览

google-cloud-platform - 是否可以按顺序链接 Google DataPrep 流?

我有很长的一组转换,我想将其分解为模块(每个模块都有自己的流程)。除了安排连续的时隙之外,我看不到链接这些的方法。有没有人管理过这个,还是我需要建立一个庞大的流程?

0 投票
0 回答
595 浏览

google-cloud-dataflow - 作业失败并显示奇怪的消息

我有一份在消息一开始就失败的工作:

"@*" and "@N" are reserved sharding specs. Filepattern must not contain any of them.

我已将目标位置更改为默认(电子邮件地址)以外的位置,其中包含 @ 符号,但我仍然可以看到它在该路径中使用我无法编辑的临时目标。

以前有人遇到过这个问题吗?我有一个只有 65k 行长的文件,我可以在 Data Prep 中预览所有完整数据,但是当我运行该作业时,它会失败,这非常乏味,如果无法运行,大约需要 3 小时清理下水道. (我很欣赏它不是为此而设计的,但 Excel 是一匹母马,所以它似乎是一个很好的解决方案!)

编辑 - 添加日志:

和 StackDriver 警告或更高:

0 投票
2 回答
699 浏览

google-cloud-platform - 使用 EU BigQuery db 时,Google Cloud DataPrep 因跨区域错误而失败

今天我在开发一些新流程时遇到了一些问题——我首先从欧盟地区的 BigQuery 数据库中读取并加载到其中。

为了隔离问题,我采取了以下步骤:

  1. 在欧盟地区创建一个新的 BQ 数据库
  2. 通过上传 CSV 创建表
  3. 编写一个从该表读取并输出到同一数据库中的新表的流,无需任何转换

作业仍然失败,并显示以下消息:

这是测试流程:

测试流程

这是生成的数据流:

在此处输入图像描述

0 投票
1 回答
337 浏览

java - Google Dataflow/Dataprep Shuffle 键太大(INVALID_ARGUMENT)

我已经尝试过多次运行这项工作,并且每次在遇到许多与配额相关的警告(并且每次都要求增加)之后,但最终它总是以这个错误消息结束,我相信这是由于我的数据集太大,但我不确定。Dataprep 应该能够处理任何规模的 ETL 作业,而这甚至不是那么大的作业。无论如何,这是错误消息,任何帮助将不胜感激:

完整的错误信息可以在这里找到:https ://pastebin.com/raw/QTtmm5D2

我已经获得了几次配额增加,虽然这让工作比以前继续父亲,但它仍然以同样的错误结束(尽管随机键大小更大。)由于配额,它现在似乎没有撞墙相关问题。

除了放弃 Dataprep 并回到 map reduce 之外,还有什么想法吗?

0 投票
1 回答
587 浏览

excel - Google Dataprep 按列排序

我已经尝试过搜索这个并且没有运气,如果它是重复的,那么很抱歉。我正在寻找是否可以使用 Google Dataprep 按自定义顺序按列对 Excel 工作表进行排序。之后我希望在 BQ 中使用该文件,这就是我希望使用 Dataprep 的原因。

列名称为 Stage,值为:Closed - Won、Stage Three、Stage Two、Stage One、Prospect、Closed - Lost。没有按那个顺序出现,但这就是我想要对它们进行排序的顺序。

谢谢你的帮助!

0 投票
1 回答
208 浏览

google-cloud-platform - Dataprep:作业完成事件

我们正在考虑按自动计划使用 Dataprep,以便将 GCS .gz 文件的文件夹加载到 Big Query 中。

挑战是:源 .gz 文件在处理后如何移动到冷存储?

我找不到由 Dataprep 生成的事件,我们可以连接到该事件以执行归档任务。如果 Dataprep 可以自行归档源文件,那将是最理想的。

有什么建议么 ?

0 投票
1 回答
269 浏览

google-cloud-platform - DataPrep:访问源文件名

有没有办法用创建每一行的源文件名创建一个列?

用例:我想跟踪 GCS 存储桶中的哪个文件导致在结果数据集中创建了哪一行。我想要对特定 GCS 存储桶中包含的文件进行预定转换。

我查看了 GCP 上的“元数据文章”,但它对我的用例毫无用处。

更新:我已向Google提出功能请求。

0 投票
2 回答
904 浏览

tensorflow - Dataproc、Dataprep 和 Tensorflow

我正在尝试创建处理大型数据集的 ML 模型。我的问题与这些大数据集的预处理有关。从这个意义上说,我想知道使用 Dataprep、Dataproc 或 Tensorflow 进行预处理之间有什么区别。

任何帮助,将不胜感激。

0 投票
1 回答
119 浏览

google-cloud-platform - Google Cloud DataPrep DATEDIF 函数不一致

我有四个 DateTime 列,都是长格式,例如2016-08-01T21:13:02Z. 它们被称为EnqDateTimeQuoteCreatedDateTime和。BookingCreatedDateTimeRejAt

我想在EnquiryDateTime其他三列之间添加持续时间(以天为单位)的列,即

这适用于RejAt,但会为所有其他列引发错误:

根据下图,所有四列都是DateTime。

显示工作 RejAt DATEDIFF 的列设置

谁能看到这可能不适用于三列中的两列的任何其他原因?