问题标签 [google-cloud-data-fusion]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
458 浏览

google-cloud-data-fusion - 相当于谷歌云数据融合数据管道牧马人中的 LEFT() 函数?

我需要将 dataprep 配方中的配方移植到数据融合管道管理器中。

derive type: single value: LEFT(column3, 3) as: 'column3'

当我输入自定义转换时,它给了我一个错误: io.cdap.wrangler.expression.EL.compile@1:6 unsolvable function/method 'LEFT'

0 投票
1 回答
570 浏览

google-cloud-data-fusion - 可以使用 Cloud Data Fusion 管道修改或删除 BigQuery 数据集中表中的行吗?

我需要构建 Data Studio 仪表板并使用 BigQuery 数据集中的数据。

我已经使用 Data Fusion 从本地 MS SQL 服务器将我的数据导入到 BQ,要求是我必须删除最后 5 天的记录,并在记录的顶部导入相同时间范围内的新更新记录BQ 数据集...

到目前为止,我能够使用管道完成所有工作,但是当我运行管道时,它确实将数据再次附加到 BQ 表中,最终得到重复数据。

我正在寻找一种在 BQ 从管道接收新数据之前对数据进行一些操作的方法。数据融合中有什么可以帮助解决这个问题的吗?

问候

0 投票
1 回答
613 浏览

google-cloud-data-fusion - 无法将 Excel 文件从 Google Cloud Storage 加载到 Google Data Fusion

通过将数据源选项用作 excel 或使用牧马人,我无法将 excel 文件从谷歌云存储加载到数据融合中心。在使用牧马人加载数据时,它说不可显示的对象。

你能帮我详细解释一下如何将excel文件加载到数据融合中心吗

0 投票
0 回答
384 浏览

google-cloud-dataproc - 有没有办法使用 Data Fusion 处理驻留在 GCS 中的 INT96 parquet 类型的 parquet 文件?

我想使用 Data Fusion 将驻留在 GCS 中的 INT96 parquet 类型的 parquet 文件加载到 BigQuery。

使用 GCS 广告 BigQuery 组件创建了一个管道,没有任何 Wrangler,因为 Wrangler 不支持 parquet 格式。

“MapReduce 程序 'phase-1' 失败并出现错误:MapReduce JobId job_1567423947791_0001 失败。请查看系统日志以获取更多详细信息”

Q.1:- 我们可以查看此作业 ID 的详细 Map reduce 日志吗?我知道我们可以在 Cloudera 支持的 Apache Hadoop 中做到这一点。

Q.2:- 没有牧马人的失败不仅发生在镶木地板的情况下,甚至发生在纯文本文件的情况下。牧马人是强制性的吗?

Q.3:- 当我们尝试使用 Spark 引擎而不是 Map Reduce 时,它​​导致失败原因显示为“INT96 尚未实现”。有什么办法可以克服这个错误吗?没有 INT96 字段的 Parquet 文件已成功处理。

0 投票
0 回答
272 浏览

google-bigquery - 运行导出的 Google Cloud Data Fusion 管道

我已经导出了一个 Cloud Data Fusion 管道。如何随时触发集群上的作业?我试图在文档中找到它,但找不到任何地方。

0 投票
1 回答
134 浏览

google-cloud-platform - 如何从一个 gcs 位置读取多个 csv 文件,附加它们(即堆叠它们)使用 DATA FUSION 将它们写回另一个 gcs 位置?

为什么选择数据融合,因为我需要再运行几个步骤(运行 Data Proc 集群),插入数据库并按计划进行。此外,数据可能会爆炸(10s 的 TB)或缩小(10s 的 GB)。

0 投票
1 回答
669 浏览

maven - 尝试将 Google Cloud 的最新插件上传到 Data Fusion,但上传时出错

参考我之前的这篇文章:可以使用 Cloud Data Fusion 管道从 BigQuery 数据集中的表中修改或删除行?我正在尝试按照建议的答案编译最新版本的 Google Cloud Platform 插件并上传到 Data Fusion,以便我可以使用最新功能。

我们已经下载了代码,编译它并得到 2 个文件:

  • google-cloud-0.13.0-SNAPSHOT.jar
  • google-cloud-0.13.0-SNAPSHOT.json

在 JSON 文件中,父工件的最后几行是:

最初我去 Data Fusion 并选择上传一个新插件,但我收到一个关于父工件不存在的错误。所以我做了一些挖掘,发现 Data Fusion 上使用的工件的版本目前是 6.0.1: 在此处输入图像描述

所以我将父工件修改为正确的版本,现在 JSON 文件中的最后几行显示:

当我尝试再次上传插件时,它似乎通过了工件检查步骤,但在某种类检查中失败了,我在上传屏幕中看到了这个: 在此处输入图像描述

检查插件的工件时找不到类。请检查依赖项是否可用,并且指定了正确的父工件。错误类:类 java.lang.NoClassDefFoundError,消息:io/cdap/cdap/etl/api/validation/ValidationException。

所以现在我真的不知道这里出了什么问题。我怀疑数据融合中使用的工件版本没有引发错误的类?如果是这样,我如何更新工件本身?

或者,如果在整个过程中我还缺少其他东西,那么我将非常感谢您对此的任何指导或支持!问候

0 投票
1 回答
648 浏览

google-cloud-sql - 无法从 Data Fusion 连接 Cloud SQL mySql 实例。异常“无法创建套接字工厂 'com.google.cloud.sql.mysql.SocketFactory”

面临异常“由于基础异常,无法创建套接字工厂'com.google.cloud.sql.mysql.SocketFactory'。” 尝试在谷歌云数据融合中连接 mysql 实例时。

  • 创建云数据融合实例
  • 从牧马人->添加连接->添加 jar 构建(从下面给出的 pom.xml 创建)作为驱动程序
  • 在添加连接中,使用连接字符串为“dbc:mysql://google/mysql?cloudSqlInstance=socketFactory=com.google.cloud.sql.mysql.SocketFactory&useSSL=false”
  • 在测试连接时,它会抛出错误,“由于底层异常,无法创建套接字工厂'com.google.cloud.sql.mysql.SocketFactory'。”

这是我的 pom.xml,我使用 mvn 包构建了 fat jar。

0 投票
1 回答
313 浏览

google-cloud-data-fusion - 如何在 Data Fusion Studio 中将节点的输出作为属性变量传递给下一个节点

QS 1:如何读取包含节点基本属性的配置表/文件{例如:源和接收器表名称等},并在 FUSION 管道的下一个节点中使用该输出。

尝试使用远程程序执行器,命令为 -

现在如何在源 bigQuery 节点的 TABLE 属性中的嵌套管道节点中使用此输出,例如 SOURCE_TABLE col

0 投票
1 回答
1356 浏览

google-cloud-data-fusion - 无法使用 Google Cloud Data Fusion 连接到本地 SQL Server

我正在尝试使用 Cloud Data Fusion 测试连接以连接到本地 SQL Server。我们的 GCP 项目不使用默认网络,而是使用自定义 VPC。

需要注意的是,安全性非常重要,因为该数据库包含医疗保健数据。

我们目前有 App Engine Flex 代码,它使用 pymssql 通过 VPC 查询此 SQL Server 上的数据库,并希望使用 Data Fusion 进行测试。

我已将生成的数据融合服务帐户复制并添加到具有 Cloud Data Fusion API 服务代理角色的 IAM。

我已经在 Data Fusion 中进行了配置

我已验证用于 SQL Server 身份验证的用户名和密码对数据库有效。

VPC 网络允许端口 22 和 1433。

在这一点上,我只是想获得一个成功的连接来查询数据库中的一个表。

这是我收到的错误消息:

连接超时。验证连接属性。确保 SQL Server 实例正在主机上运行并在端口接受 TCP/IP 连接。确保与端口的 TCP 连接未被防火墙阻止。

想法?