问题标签 [google-cloud-dataprep]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
503 浏览

google-cloud-platform - Dataprep - 调度作业

对于 Dataprep 测试版的任何人,是否可以安排正在运行的作业?如果是这样,它是通过应用引擎的 cron 服务吗?我不能完全按照 cron 的应用程序引擎说明进行操作,但想在尝试之前确保它不是死胡同

谢谢

0 投票
2 回答
880 浏览

json - 在谷歌数据准备中导入 json 文件

这里有人知道如何在谷歌数据准备中导入 json 文件吗?我可以在那里上传一个 json 文件,但它不能创建列。

这是屏幕截图:在此处输入图像描述

如您所见,它将所有 json 显示为 1 列。

我做了一些研究,并认为应该通过额外的步骤来支持 JSON

这是文章: https ://cloud.google.com/dataprep/docs/html/Supported-File-Formats_57344528

这是附加步骤文章: https ://cloud.google.com/dataprep/docs/html/Splitrows-Transform_57344654 。

我确实尝试过拆分行,但它仍然无法正常工作。我必须使用任何特定格式的 JSON 吗?

如果您能给我一个按预期工作的简单 json 文件示例,那就太好了。

谢谢。

0 投票
1 回答
456 浏览

arrays - 如何在谷歌数据准备中合并行

我真的在为谷歌数据准备而苦苦挣扎,因为没有太多关于这方面的信息。

假设我有数据:

然后我的下一步是将数组展平为行以清理数据。在这种情况下,它将总共创建 4 行。

现在,例如,我不知道如何根据名称合并行。

合并的功能只是合并列。

0 投票
1 回答
630 浏览

google-cloud-dataprep - 如何在 Google Dataprep 中导出带有标题的文件?

我正在尝试导出 Google Dataprep 作业的结果。正如您在以下屏幕截图中看到的那样,列具有名称或标题:

在此处输入图像描述

但是,导出的文件不包括它们。如何将这些列标题保留在导出的 CSV 文件中?

谢谢你的帮助。

0 投票
1 回答
2014 浏览

google-bigquery - BigQuery / DataPrep:提取字数的有效方法;将 HTML 转换为纯文本

我有一个存储在 BigQuery 中的约 4.7M 文档表。有些是纯文本,有些是 HTML。它们大约有 2k 个令牌,变化很大。我主要使用 DataPrep 进行处理。

我想提取这些标记并计算TF-IDF值。

令牌计数

更耗时的步骤之一是采取以下措施:

并将其变成这样:

一种方法是:

  1. 文件上的提取列表由{alphanum-underscore}+ id, wordlist 1, ["foo", "bar", "foo", "baz"] 2, ["foo", "bar", "bar", "qux"]
  2. 展平单词表 id, word 1, foo 1, bar 1, foo 1, baz 2, foo 2, bar 2, bar 2, qux
  3. 按组聚合:id、word、值:count() id, word, count 1, foo, 2 1, bar, 1 1, baz, 1 2, foo, 1 2, bar, 2 2, qux, 1

但是,第 2 步和第 3 步非常慢,尤其是对于大型文档。

理想情况下,我将能够拥有一个转换["foo", "bar", "foo", "baz"]{"foo":2, "bar":1, "baz":1}. 这不需要 flatten-then-group 操作来提取计数,并且随后的 flatten 会更小(因为它在唯一的术语而不是每个术语上运行)。

但是,我还没有想出在 DataPrep 中做到这一点的任何方法。:-/

有什么更有效的方法来做到这一点?

HTML 到纯文本

我的源数据是纯文本和 html 的组合。在 370 万份文档中,只有大约 80 万份有明文可用。

我想以某种合理的方式将 html 转换为纯文本(例如,相当于 Nokogiri #content),这样我就可以对结果进行令牌提取。

我可以启动一个集群,提取bq queryhtml,用 nokogiri 处理它,然后将它输出到一个已处理的表。但这有点复杂,需要大量的 i/o。

有没有更简单/更有效的方法来做到这一点?

0 投票
0 回答
195 浏览

google-bigquery - 无法将数据从 Dataprep 传输到 Google BigQuery

我正在尝试将 15GBcsv文件DataprepGoogle BigQuery. 但是我收到以下错误:错误信息截图

我该如何解决这个问题?

0 投票
2 回答
715 浏览

google-cloud-dataprep - 对多个数据集重复使用相同的配方

我想对其余数据集使用与一个数据集相同的配方。所有数据集的结构/标题都是相同的。有没有办法在不重复所有步骤的情况下导入或重复使用相同的配方?

0 投票
1 回答
251 浏览

google-cloud-dataflow - Google DataPrep 中的动态 BigQuery 数据源 - 可以吗?

我不能使用 Dataprep 定义动态数据源真的是对的吗?据我所知,我只能指向 BigQuery 表。我需要指向表格中的某个部分。分区的命名总是包括日期。喜欢。“ga_20171113”。

我真的不明白为什么我不能定义一个 SQL 虽然 BQ 并将其用作源。

0 投票
2 回答
920 浏览

google-cloud-dataflow - 数据流工作人员无法连接到数据流服务

我正在使用 Google Dataprep 启动 Dataflow 作业,但遇到了一些困难。

作为背景,我们使用了 Dataprep 几个星期,在我们开始遇到服务帐户授权问题之前它可以正常工作。当我们最终解决这个问题时,我们重新启动了我们曾经启动的作业,但它们以“数据流似乎被卡住了”而失败。

我们尝试了另一个非常简单的工作,但遇到了同样的错误。以下是完整的错误消息,作业在卡住一小时后失败:

数据流 -

数据准备 -

似乎这种错误有多种来源,我不知道从哪里开始。提前致谢

0 投票
3 回答
214 浏览

google-bigquery - 无法访问表 irs_990_reporting Dataprep Google Cloud 的数据库 irs_990

我在尝试创建表格时遇到了 Google DataPrep 问题。有一条消息“无法访问表 irs_990_reporting 的数据库 irs_990”。

你们,伙计们,可以在这里看到所有的步骤。

https://docs.google.com/document/d/1u5rFyg7nMv4YJ_u_ASjpmVdkusJARTN2gCtBj8zr4T0/edit?usp=sharing

在此处输入图像描述


感谢您的所有回答,但我仍然有这个问题。我尝试了你所有的建议,但它仍然不起作用。我只有一个项目、一个流程、一个数据集和一份工作。我创建了一个新流程,使其更清晰。

https://docs.google.com/document/d/1CU6CU_-plQ9Id1etj5nLbJ6iKSVPQURZISk6YYohAM0/edit?usp=sharing

在此图像中,您可以看到一些权限。

它还活着!它还活着!它还活着!

威尔的回答解决了这个问题,我不明白为什么会这样,所以如果你们有一些答案要指定,那就完美了。

谢谢,威尔