“google-cloud-data-fusion”的相关标签问题

0 投票

1 回答

2710 浏览

google-cloud-platform - Google Data Fusion 能否进行与 DataPrep 相同的数据清理？

我想用一些数据运行机器学习模型。在用这些数据训练模型之前，我需要处理它，所以我一直在阅读一些方法来做到这一点。

首先创建一个 Dataflow 管道将其上传到 Bigquery 或 Google Cloud Storage，然后使用 Google Dataprep 创建一个数据管道来清理它。
我打算这样做的另一种方法是使用数据融合，它可以更轻松地创建数据管道，但我不知道，这是我的疑问，数据融合只是创建像 Dataflow 这样的管道，然后我必须使用DataPrep 来清理数据，或者 Data Fusion 是否可以清理数据并准备将其放入我的机器学习模型中。

如果 Data Fusion 可以像 DataPrep 一样清理数据，我应该什么时候使用 DataPrep？

2019-09-30T21:14:30.663

0 投票

1 回答

142 浏览

google-cloud-data-fusion - 我们可以使用 jdbc 驱动程序使用数据融合从 mariaDB 和 SAP-HANA 读取

我想从 MariaDB 和 SAP-HANA 读取数据并使用 Data Fusion 加载到 BigQuery。是否可以使用 jdbc 驱动程序读取？

google-cloud-data-fusion

2019-10-01T13:34:27.130

0 投票

0 回答

181 浏览

google-bigquery - 管道无法放入 BigQuery Sink MapReduce 程序“阶段 1”失败

我正在尝试构建一个简单的管道，将数据从我们的 Cloud SQL (MySQL) 移动到 BigQuery。所有 JDBC 驱动程序工作正常（如果我使用垃圾桶作为接收器，我可以看到预览数据）并且传播了架构。

我创建了 BigQuery 数据库和表——但是当我运行管道时，我得到了以下错误，它并没有告诉我任何事情。这里出了什么问题？

google-bigquery google-cloud-data-fusion cdap

2019-10-04T10:37:50.590

0 投票

1 回答

268 浏览

google-cloud-data-fusion - Cloud Data Fusion 实例不会删除

我试图删除一个云数据融合实例。控制台已表示该实例已经删除了几天。尽管我没有实际运行的管道，但它正在累积费用 ~ 40 美元/天。当我尝试删除卡在删除上的实例时，我收到一条错误消息，提示删除失败。

google-cloud-data-fusion

2019-10-12T07:19:35.220

0 投票

0 回答

370 浏览

google-cloud-data-fusion - 牧马人中的字符串到日期转换

我在 csv 文件中拥有格式为“2019-10-10”的原始数据。读取文件后，我已加载到 Wrangler 进行转换。我的目标列的数据类型为 DATE。

我应用了以下转换： set-column TODATE TODATE=UNIX_DATE('2019-10-10')

在这里 UNIX_DATE('2019-10-10') 将日期转换为 Unix 时间戳，并发布 Wrangler 在转储到目标表时会注意。

在这里它给出了错误

管道失败：jexl 转换错误。

目标表中的预期结果应为 2019-10-10 格式。请进一步帮助。

google-cloud-data-fusion

2019-10-17T09:25:00.663

0 投票

2 回答

191 浏览

google-cloud-data-fusion - 创建系统计算配置文件

我正在尝试使用 Cloud Data Fusion 进行一些测试，但是，我在运行管道时遇到了连接问题。我了解到它使用的是默认网络，我想将我的系统计算配置文件更改为不同的网络。

问题是，我没有创建新系统计算配置文件的选项（该选项未显示在“配置”选项卡下）。如何获得正确的访问权限以创建新的计算配置文件？我担任数据融合管理员的角色。

谢谢你。

google-cloud-data-fusion

2019-10-21T17:23:45.557

0 投票

3 回答

1941 浏览

google-cloud-data-fusion - Google Cloud Data Fusion：如何将数据类型从字符串更改为日期？

有谁知道如何在 Data Fusion 中将字符串转换为日期，以便它作为“日期”而不是字符串写入目标？

我们正在使用数据融合来使用来自 GCS（谷歌云存储）的 csv。Data Fusion 将所有字段检测为字符串，我们希望将其中一些实际上是日期的字段作为 Date 更改/转换为 BigQuery（目标）。这是作为争论的一部分执行的，还是管道中的转换选项之一？谢谢你。

google-cloud-data-fusion

2019-11-04T19:27:57.570

0 投票

1 回答

111 浏览

google-cloud-data-fusion - 通过覆盖设置 BigQuery 到 Google Cloud Storage 管道

我正在尝试在 Data Fusion 中设置一个非常简单的管道，该管道从 BigQuery 获取一个表，然后将该数据存储到 Google Cloud Storage 中。通过下面的管道设置，它相当容易。我们首先读取 bigquery 表和架构，然后将数据放入 Google Cloud Storage 存储桶中。这可行，但问题是我运行的每个新传输都会创建一个新地图和一个新文件。我想做的是用我所做的每次新传输覆盖同一文件路径中的单个文件。

我在这个设置中遇到的问题是，一个新地图和一个新文件会在使用时间戳前缀创建的 Google Cloud Storage 中获取。查看下面的接收器配置，事实上，默认情况下您会看到一个时间戳。

好吧，这意味着如果我删除前缀，则不应创建新地图。悬停确认了这一点：“如果未指定，则不会将任何内容附加到路径”。

但是，当我清除此值然后保存时，全时格式会再次自动弹出。我不能使用静态值，因为这会导致错误。例如，我刚刚尝试在 Google Cloud Storage 中创建一个编号为“12”的地图，然后将前缀设置为此，但正如您所猜测的那样，这不起作用。还有其他人遇到这个问题吗？如何摆脱路径后缀，这样我就不会为 Google Cloud Storage 中的每个时间戳获取新地图？

google-cloud-data-fusion

2019-11-06T15:09:15.093

0 投票

1 回答

442 浏览

google-cloud-storage - 如何使用 CDAP 创建从 BigQuery 到 Google Storage 的 ETL？

我在我的 Google Cloud 环境中设置 CDAP，但在执行以下管道时遇到问题：在 BigQuery 上运行查询并将结果保存在 Google Storage 上的 CSV 文件中。

我的过程是：

使用Google Marketplace 上的CDAP OSS 映像安装 CDAP 。
构建以下管道：

凭据密钥具有所有者权限，我可以使用“预览”选项访问查询结果。

管道结果：

文件：

_SUCCESS（空）
part-r-00000（查询结果）

没有生成 csv 文件，我也找不到可以在 CDAP 中为输出文件设置名称的地方。我错过了任何配置步骤吗？

更新：

我们最终放弃了 CDAP，而使用了 Google DataFlow。

google-cloud-storage google-cloud-data-fusion cdap google-bigquery

2019-11-08T20:51:38.213

0 投票

1 回答

1305 浏览

google-cloud-platform - 导入/导出 DataFusion 管道

有谁知道是否可以以编程方式导入/导出 DataFlow 管道（已部署或处于草稿状态）？

这个想法是编写一个脚本来删除和创建一个 DataFusion 实例，以避免在不使用时计费。通过 gloud 命令行，可以配置 DataFusion 集群并销毁它，但自动导出和导入我的所有管道也会很有趣。

不幸的是，官方文档并没有帮助我......

谢谢！

google-cloud-platform integration etl google-cloud-data-fusion

2019-11-13T14:45:20.487

问题标签 [google-cloud-data-fusion]

更新：

Reference