问题标签 [google-cloud-dataprep]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
52 浏览

mysql - 时间序列数据库中的标记差距和新条目 - 客户流失和新客户

我正在尝试在我的数据库中标记新客户和流失客户。目标是有一个非常简单的平面表,我可以在其中为给定的业务和给定的年份拉“新客户”和“失去的客户”。

我有一个看起来像这样的表:

而且我想在我的表中添加两个新列,以便我标记客户在那一年是“新”,还是在该业务线的下一年“离开”。所以最终结果应该是这样的:

非常感谢您的帮助。我正在使用 SQL 和 Google Cloud Dataprep 进行这项工作,而且我是一个糟糕的编码员,并且对蛮力技术非常开放!

0 投票
1 回答
1072 浏览

google-cloud-platform - 用于 DataFlow 和 DataPrep 的 ZONE_RESOURCE_POOL_EXHAUSTED

好的团队...Dataprep 遇到 BigQuery。我一生都无法找出过去 5 小时内出现 ZONE_RESOURCE_POOL_EXHAUSTED 问题的原因。前一天晚上,一切都很顺利,但今天,我遇到了一些严重的问题。

谁能提供有关如何更改与 Dataprep 相关的 Dataflow 作业的资源池的任何见解?我什至无法进行基本的列转换。

期待任何人帮助我解决这个问题,因为老实说,这个问题是其中之一“只要改变这个,也许这会解决它,如果没有,也许几个星期,它就会起作用”。

这是屏幕截图中的问题:https ://i.stack.imgur.com/Qi4Dg.png

更新:

我相信我的一些问题可能特别涉及GCP Compute 事件 18012,因为它是一个基于 us-central 的实例创建问题。

0 投票
2 回答
457 浏览

google-cloud-dataprep - 如何重命名 dataprep 中的多个列?

我在 dataprep 中有 100 多个列,其名称如下:

我的栏目名称 1

我的专栏名称 2

我想将列的名称重命名为:

my_column_name_1

my_column_name_2

我试图重命名,将“”更改为“_”。但是,dataprep 只会更改第一个空格!有没有办法改变所有的空格?

另一个问题,当我执行重命名之类的功能时,它只是为一列完成的。我可以添加更多的列来写 de 列的名称。有没有办法在不写所有名称的情况下选择所有列?

太感谢了!

0 投票
0 回答
51 浏览

google-cloud-dataprep - 合并时 Dataprep 作业不断失败

我有两个数据集,我正在尝试使用 dataprep 合并。两者都有 300 多列,并且需要结合名称匹配和手动添加列来匹配,因为名称并不总是相同。

匹配列并保存后,作业每次在 5 分钟标记处失败。在它失败后,我尝试返回到配方中检查匹配的列,我匹配的列不再匹配。

解决此问题的任何解决方案或其他步骤都会有所帮助。

谢谢!

0 投票
1 回答
455 浏览

google-cloud-dataprep - java.lang.Long 在使用 MAX() 时无法转换为 java.lang.Double ERROR

自昨天 19/11/2018 更新 Cloud Dataprep 以来,我每次使用函数 MAX() 时都会遇到错误,无论是单独使用还是在枢轴中使用。

一些注意事项:

  • 我在另一个数据集上使用了 MAX 函数,它正在工作。(所以 max() 有效)
  • 我昨天更新dataprep之前没有这个问题,流程正常。
  • 我尝试了很多次来编辑配方以隔离问题,但似乎是 MAX() 函数
  • 我使用 MAX() 的列是 INT 类型。我试图在使用 MAX() 之前转换 INT-> FLOAT -> INT 以确保它是 INT 但一直遇到同样的问题

这是日志

0 投票
2 回答
1303 浏览

google-bigquery - 计划删除 BQ 表

我将数据流式传输到 BQ,每天我在 Dataprep 中运行一个计划的作业,该作业需要 24 小时的数据并修改一些数据并在 BQ 数据集中创建一个包含 24 小时数据的新表。

原始表保持不变并继续收集数据。

我想做的是在 dataprep 复制后删除表中的所有行,以便收集新的 24 小时数据流

我怎样才能使它自动化,我似乎在 dataprep 中找不到任何删除原始表并创建新表的内容。

0 投票
2 回答
384 浏览

google-cloud-platform - 操作大量文件以在谷歌云中重新格式化

我在 Google 云存储中有大量 json 文件,我想将它们加载到 Bigquery。平均文件大小为 5MB,未压缩。问题是它们不是新行分隔的,所以我无法将它们按原样加载到 bigquery。我在这里最好的方法是什么?我应该使用 Google 功能或数据准备,还是只是启动服务器并让它下载文件、重新格式化并将其上传回云存储,然后再上传到 Bigquery?

0 投票
2 回答
138 浏览

google-cloud-dataprep - 有云数据准备 api 吗?

理想情况下,我想编写一个函数来在添加或更改为 GCS 的以下事件之一上启动数据准备作业。

我想如果有支持库,我可以在 python 中编写触发器。但我找不到一个。如果我没有可用的 python,很高兴使用不同的语言。

谢谢

0 投票
1 回答
171 浏览

google-cloud-platform - 无法共享数据准备流程

我正在尝试与我的业务中的一些其他用户共享 Cloud Dataprep 流,但它不允许我与我们的云帐户中的任何用户共享或协作:

https://i.stack.imgur.com/rf3vY.jpg

我以为我会为用户正确设置权限,但我假设我错过了什么?

0 投票
2 回答
1367 浏览

google-bigquery - BigQuery 表的架构与配方不匹配

我目前正在研究从 bigquery 流向 Tableau 的 BI 堆栈。我正在尝试使用 Dataprep 删除不必要的列并加入 bigquery 中的表以创建一个“主”表,然后输入 Tableau。bigquery 中的表大约每 8 小时更新一次,我正在尝试在 dataprep 中为主表创建一个类似的计划。

运行作业或什至尝试从连接的表中获取样本会不断产生此错误。

java.lang.IllegalStateException:BigQuery 表的架构与配方不匹配。

不知道我应该如何解决这个问题。我比较了错误中的两列(预期与实际列),发现它期望多一列。为什么会发生这种情况?

作为比较,我有一个与相同数据并行运行的 postgres 数据库,并且能够毫无问题地进行相同的连接。

此外,这里是整体流程在 dataprep 中的外观。

任何帮助表示赞赏。

谢谢,

艺术