问题标签 [google-cloud-data-fusion]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2710 浏览

google-cloud-platform - Google Data Fusion 能否进行与 DataPrep 相同的数据清理?

我想用一些数据运行机器学习模型。在用这些数据训练模型之前,我需要处理它,所以我一直在阅读一些方法来做到这一点。

  1. 首先创建一个 Dataflow 管道将其上传到 Bigquery 或 Google Cloud Storage,然后使用 Google Dataprep 创建一个数据管道来清理它。

  2. 我打算这样做的另一种方法是使用数据融合,它可以更轻松地创建数据管道,但我不知道,这是我的疑问,数据融合只是创建像 Dataflow 这样的管道,然后我必须使用DataPrep 来清理数据,或者 Data Fusion 是否可以清理数据并准备将其放入我的机器学习模型中。

如果 Data Fusion 可以像 DataPrep 一样清理数据,我应该什么时候使用 DataPrep?

0 投票
1 回答
142 浏览

google-cloud-data-fusion - 我们可以使用 jdbc 驱动程序使用数据融合从 mariaDB 和 SAP-HANA 读取

我想从 MariaDB 和 SAP-HANA 读取数据并使用 Data Fusion 加载到 BigQuery。是否可以使用 jdbc 驱动程序读取?

0 投票
0 回答
181 浏览

google-bigquery - 管道无法放入 BigQuery Sink MapReduce 程序“阶段 1”失败

我正在尝试构建一个简单的管道,将数据从我们的 Cloud SQL (MySQL) 移动到 BigQuery。所有 JDBC 驱动程序工作正常(如果我使用垃圾桶作为接收器,我可以看到预览数据)并且传播了架构。

在此处输入图像描述

我创建了 BigQuery 数据库和表——但是当我运行管道时,我得到了以下错误,它并没有告诉我任何事情。这里出了什么问题?

在此处输入图像描述

0 投票
1 回答
268 浏览

google-cloud-data-fusion - Cloud Data Fusion 实例不会删除

我试图删除一个云数据融合实例。控制台已表示该实例已经删除了几天。尽管我没有实际运行的管道,但它正在累积费用 ~ 40 美元/天。当我尝试删除卡在删除上的实例时,我收到一条错误消息,提示删除失败。

0 投票
0 回答
370 浏览

google-cloud-data-fusion - 牧马人中的字符串到日期转换

我在 csv 文件中拥有格式为“2019-10-10”的原始数据。读取文件后,我已加载到 Wrangler 进行转换。我的目标列的数据类型为 DATE。

我应用了以下转换: set-column TODATE TODATE=UNIX_DATE('2019-10-10')

在这里 UNIX_DATE('2019-10-10') 将日期转换为 Unix 时间戳,并发布 Wrangler 在转储到目标表时会注意。

在这里它给出了错误

管道失败:jexl 转换错误。

目标表中的预期结果应为 2019-10-10 格式。请进一步帮助。

0 投票
2 回答
191 浏览

google-cloud-data-fusion - 创建系统计算配置文件

我正在尝试使用 Cloud Data Fusion 进行一些测试,但是,我在运行管道时遇到了连接问题。我了解到它使用的是默认网络,我想将我的系统计算配置文件更改为不同的网络。

问题是,我没有创建新系统计算配置文件的选项(该选项未显示在“配置”选项卡下)。如何获得正确的访问权限以创建新的计算配置文件?我担任数据融合管理员的角色。

谢谢你。

0 投票
3 回答
1941 浏览

google-cloud-data-fusion - Google Cloud Data Fusion:如何将数据类型从字符串更改为日期?

有谁知道如何在 Data Fusion 中将字符串转换为日期,以便它作为“日期”而不是字符串写入目标?

我们正在使用数据融合来使用来自 GCS(谷歌云存储)的 csv。Data Fusion 将所有字段检测为字符串,我们希望将其中一些实际上是日期的字段作为 Date 更改/转换为 BigQuery(目标)。这是作为争论的一部分执行的,还是管道中的转换选项之一?谢谢你。

0 投票
1 回答
111 浏览

google-cloud-data-fusion - 通过覆盖设置 BigQuery 到 Google Cloud Storage 管道

我正在尝试在 Data Fusion 中设置一个非常简单的管道,该管道从 BigQuery 获取一个表,然后将该数据存储到 Google Cloud Storage 中。通过下面的管道设置,它相当容易。我们首先读取 bigquery 表和架构,然后将数据放入 Google Cloud Storage 存储桶中。这可行,但问题是我运行的每个新传输都会创建一个新地图和一个新文件。我想做的是用我所做的每次新传输覆盖同一文件路径中的单个文件。

在此处输入图像描述

我在这个设置中遇到的问题是,一个新地图和一个新文件会在使用时间戳前缀创建的 Google Cloud Storage 中获取。查看下面的接收器配置,事实上,默认情况下您会看到一个时间戳。

在此处输入图像描述

好吧,这意味着如果我删除前缀,则不应创建新地图。悬停确认了这一点:“如果未指定,则不会将任何内容附加到路径”。

在此处输入图像描述

但是,当我清除此值然后保存时,全时格式会再次自动弹出。我不能使用静态值,因为这会导致错误。例如,我刚刚尝试在 Google Cloud Storage 中创建一个编号为“12”的地图,然后将前缀设置为此,但正如您所猜测的那样,这不起作用。还有其他人遇到这个问题吗?如何摆脱路径后缀,这样我就不会为 Google Cloud Storage 中的每个时间戳获取新地图?

0 投票
1 回答
442 浏览

google-cloud-storage - 如何使用 CDAP 创建从 BigQuery 到 Google Storage 的 ETL?

我在我的 Google Cloud 环境中设置 CDAP,但在执行以下管道时遇到问题:在 BigQuery 上运行查询并将结果保存在 Google Storage 上的 CSV 文件中。

我的过程是:

  1. 使用Google Marketplace 上的CDAP OSS 映像安装 CDAP 。

  2. 构建以下管道:

凭据密钥具有所有者权限,我可以使用“预览”选项访问查询结果。

管道结果:

文件:

  • _SUCCESS(空)
  • part-r-00000(查询结果)

没有生成 csv 文件,我也找不到可以在 CDAP 中为输出文件设置名称的地方。我错过了任何配置步骤吗?

更新:

我们最终放弃了 CDAP,而使用了 Google DataFlow。

0 投票
1 回答
1305 浏览

google-cloud-platform - 导入/导出 DataFusion 管道

有谁知道是否可以以编程方式导入/导出 DataFlow 管道(已部署或处于草稿状态)?

这个想法是编写一个脚本来删除和创建一个 DataFusion 实例,以避免在不使用时计费。通过 gloud 命令行,可以配置 DataFusion 集群并销毁它,但自动导出和导入我的所有管道也会很有趣。

不幸的是,官方文档并没有帮助我......

谢谢!