问题标签 [google-cloud-dataprep]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
268 浏览

google-cloud-platform - 在 DataPrep 中,对对象中的一组多列或值求和

我有一个 DataPrep 数据集,其中包含一系列 ~10 列,每列都指示是否选择了特定的小册子:

我想将这些值汇总/计数成一BrochuresSelected列。

我希望ADD与列范围(即BRO_AF~BRO_ITA)一起使用,但ADD只需要两个数字。

我不能使用COUNT,因为它计算行而不是列。

我可以NEST用来创建一个存储小册子maparray小册子的列,但似乎没有添加这些的功能。我不能ARRAYLEN在此列上使用,因为即使是空列也表示在列中(例如["1","","","","",""],数组长度为六,而不是一)。

有没有人解决过类似的问题?

0 投票
0 回答
285 浏览

google-bigquery - DataPrep 中的数组字段在 BigQuery 中被识别为字符串

我正在尝试使用 dataprep 来整理我的数据以进行报告。

但是,应该是数组的字段在 bigquery 中被识别为字符串。

示例数据:

基本上,我只想将某些字段设为大写。(这只是一个简单的示例,我有非常复杂的转换)这是 wrangle 文件:

最后导致 bigquery(在表中):

我也在谷歌问题中问过这个问题。 https://issuetracker.google.com/issues/69773118

只是想知道,有人有这个问题并有解决方法吗? 我知道我们可以在 biquery 中查询 JSON,如下所述: How to query json stored as string in bigquery table?

但它使查询变得复杂,我想避免它。

0 投票
2 回答
1235 浏览

google-cloud-platform - Google Cloud Dataprep 可以监控新文件的 GCS 路径吗?

Google Cloud Dataprep 看起来很棒,我们已经使用它手动导入静态数据集,但是我想多次执行它,以便它可以使用上传到 GCS 路径的新文件。我可以看到您可以为 Dataprep 设置计划,但我在导入设置中的任何地方都看不到它将如何处理新文件。

这可能吗?似乎是一个明显的需求 - 希望我错过了一些明显的东西。

0 投票
2 回答
764 浏览

google-cloud-platform - 如何授予对 Google Cloud Dataprep 的访问权限?

我在 Cloud Dataprep 中创建了一个流程,作业已执行。一切都好。

但是,在此 GCP 项目中也具有所有者角色的同事无法看到我创建的流程。我无法在任何地方找到共享选项。

应该如何设置以便 Dataprep 流程可以由多个用户处理?

谢谢。

0 投票
2 回答
165 浏览

google-cloud-dataprep - 为什么 Google Dataprep 无法处理我的日志文件中的编码?

我们每个月都会收到大量的日志文件。在将它们加载到 Google BigQuery 之前,需要将它们从固定转换为分隔。我在 Google Dataprep 中找到了一篇关于如何做到这一点的好文章。但是,编码似乎有问题。

每次日志文件中出现瑞典字符时,Split 功能似乎又增加了一个空格。这会弄乱其余的列,如随附的屏幕截图所示。

我无法确定日志文件的正确编码,但我知道它们是由波兰相当古老的 Windows 服务器创建的。

任何人都可以就如何解决这一挑战提出建议吗?

Google Dataprep 中问题的屏幕截图。

0 投票
2 回答
350 浏览

google-cloud-platform - Google Cloud Dataprep - 函数

Google Cloud Dataprep 上是否有诸如离散化、规范化和数据转换(分类到数字)之类的功能?

0 投票
0 回答
500 浏览

google-bigquery - Google Cloud Dataprep - 扫描多个输入 csv 并创建相应的 bigquery 表

我在 GCS 上有几个 csv 文件,它们共享相同的模式但具有不同的时间戳,例如:

  • 数据_20180103.csv
  • 数据_20180104.csv
  • 数据_20180105.csv

我想通过 dataprep 运行它们并创建具有相应名称的 Bigquery 表。该作业应该每天使用调度程序运行。

现在我认为可行的方法如下:

  1. csv 文件应该有一个时间戳列,该列对于同一文件中的每一行都是相同的
  2. 在 GCS 上创建 3 个文件夹:raw、queue 和 wrangled
  3. 将原始 csv 文件放入 raw 文件夹。然后运行云函数将 1 个文件从原始文件夹移动到队列文件夹中,如果它是空的,否则什么也不做。
  4. Dataprep 根据调度程序扫描队列文件夹。如果找到 csv 文件(例如 data_20180103.csv),则运行相应的作业,输出文件将放入经过整理的文件夹(例如 data.csv)。
  5. 每当将新文件添加到经过整理的文件夹时,都会运行另一个 Cloud 函数。这将根据 csv 文件中的时间戳列创建一个新的 BigQuery 表(例如 20180103)。它还会删除队列和争吵文件夹中的所有文件,并继续将 1 个文件从原始文件夹移动到队列文件夹(如果有)。

重复直到创建所有表。这对我来说似乎过于复杂,我不确定如何处理云功能无法完成工作的情况。

对我的用例的任何其他建议表示赞赏。

0 投票
2 回答
264 浏览

google-bigquery - Google Dataprep 日期序列号

在 Google Dataprep 中,当我将 min() 应用于某个日期时,它会给出一个长序列号,例如 1304985600000。我正在尝试获取客户的第一个订单日期,但我似乎对此号码无能为力

谢谢

0 投票
2 回答
240 浏览

keras - 数据实验室中的大数据

我正在尝试将我的 csv 文件加载到 datalab 中。但是 csv 文件太大而无法加载。即使我设法做到了,进行预处理也需要很长时间。

我正在考虑使用 Keras 对这个数据集进行 ML。问题是:

  • 如何使用数据生成器向 Keras 提供我的原始数据?
  • 数据预处理怎么样,我应该在 dataprep 或 dataflow 中进行还是在 datalab 中就可以了?
  • 有什么方法可以加快训练过程?现在,我必须让数据实验室窗口打开很长时间才能完成训练。让网页长时间打开我感觉不舒服。

谢谢!

0 投票
1 回答
229 浏览

google-cloud-platform - Google Dataprep:使用更新的数据源进行调度

有没有办法在 GCS(谷歌云存储)文件上传时触发 dataprep 流?或者,至少,是否可以让 dataprep 每天运行并从 GCS 中的某个目录获取最新文件?

这应该是可能的,否则调度的意义何在?在具有相同输出的相同数据源上运行相同作业?