问题标签 [google-cloud-data-fusion]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-cloud-platform - Google Data Fusion 能否进行与 DataPrep 相同的数据清理?
我想用一些数据运行机器学习模型。在用这些数据训练模型之前,我需要处理它,所以我一直在阅读一些方法来做到这一点。
首先创建一个 Dataflow 管道将其上传到 Bigquery 或 Google Cloud Storage,然后使用 Google Dataprep 创建一个数据管道来清理它。
我打算这样做的另一种方法是使用数据融合,它可以更轻松地创建数据管道,但我不知道,这是我的疑问,数据融合只是创建像 Dataflow 这样的管道,然后我必须使用DataPrep 来清理数据,或者 Data Fusion 是否可以清理数据并准备将其放入我的机器学习模型中。
如果 Data Fusion 可以像 DataPrep 一样清理数据,我应该什么时候使用 DataPrep?
google-cloud-data-fusion - 我们可以使用 jdbc 驱动程序使用数据融合从 mariaDB 和 SAP-HANA 读取
我想从 MariaDB 和 SAP-HANA 读取数据并使用 Data Fusion 加载到 BigQuery。是否可以使用 jdbc 驱动程序读取?
google-cloud-data-fusion - Cloud Data Fusion 实例不会删除
我试图删除一个云数据融合实例。控制台已表示该实例已经删除了几天。尽管我没有实际运行的管道,但它正在累积费用 ~ 40 美元/天。当我尝试删除卡在删除上的实例时,我收到一条错误消息,提示删除失败。
google-cloud-data-fusion - 牧马人中的字符串到日期转换
我在 csv 文件中拥有格式为“2019-10-10”的原始数据。读取文件后,我已加载到 Wrangler 进行转换。我的目标列的数据类型为 DATE。
我应用了以下转换: set-column TODATE TODATE=UNIX_DATE('2019-10-10')
在这里 UNIX_DATE('2019-10-10') 将日期转换为 Unix 时间戳,并发布 Wrangler 在转储到目标表时会注意。
在这里它给出了错误
管道失败:jexl 转换错误。
目标表中的预期结果应为 2019-10-10 格式。请进一步帮助。
google-cloud-data-fusion - 创建系统计算配置文件
我正在尝试使用 Cloud Data Fusion 进行一些测试,但是,我在运行管道时遇到了连接问题。我了解到它使用的是默认网络,我想将我的系统计算配置文件更改为不同的网络。
问题是,我没有创建新系统计算配置文件的选项(该选项未显示在“配置”选项卡下)。如何获得正确的访问权限以创建新的计算配置文件?我担任数据融合管理员的角色。
谢谢你。
google-cloud-data-fusion - Google Cloud Data Fusion:如何将数据类型从字符串更改为日期?
有谁知道如何在 Data Fusion 中将字符串转换为日期,以便它作为“日期”而不是字符串写入目标?
我们正在使用数据融合来使用来自 GCS(谷歌云存储)的 csv。Data Fusion 将所有字段检测为字符串,我们希望将其中一些实际上是日期的字段作为 Date 更改/转换为 BigQuery(目标)。这是作为争论的一部分执行的,还是管道中的转换选项之一?谢谢你。
google-cloud-data-fusion - 通过覆盖设置 BigQuery 到 Google Cloud Storage 管道
我正在尝试在 Data Fusion 中设置一个非常简单的管道,该管道从 BigQuery 获取一个表,然后将该数据存储到 Google Cloud Storage 中。通过下面的管道设置,它相当容易。我们首先读取 bigquery 表和架构,然后将数据放入 Google Cloud Storage 存储桶中。这可行,但问题是我运行的每个新传输都会创建一个新地图和一个新文件。我想做的是用我所做的每次新传输覆盖同一文件路径中的单个文件。
我在这个设置中遇到的问题是,一个新地图和一个新文件会在使用时间戳前缀创建的 Google Cloud Storage 中获取。查看下面的接收器配置,事实上,默认情况下您会看到一个时间戳。
好吧,这意味着如果我删除前缀,则不应创建新地图。悬停确认了这一点:“如果未指定,则不会将任何内容附加到路径”。
但是,当我清除此值然后保存时,全时格式会再次自动弹出。我不能使用静态值,因为这会导致错误。例如,我刚刚尝试在 Google Cloud Storage 中创建一个编号为“12”的地图,然后将前缀设置为此,但正如您所猜测的那样,这不起作用。还有其他人遇到这个问题吗?如何摆脱路径后缀,这样我就不会为 Google Cloud Storage 中的每个时间戳获取新地图?
google-cloud-storage - 如何使用 CDAP 创建从 BigQuery 到 Google Storage 的 ETL?
我在我的 Google Cloud 环境中设置 CDAP,但在执行以下管道时遇到问题:在 BigQuery 上运行查询并将结果保存在 Google Storage 上的 CSV 文件中。
我的过程是:
使用Google Marketplace 上的CDAP OSS 映像安装 CDAP 。
构建以下管道:
凭据密钥具有所有者权限,我可以使用“预览”选项访问查询结果。
管道结果:
文件:
- _SUCCESS(空)
- part-r-00000(查询结果)
没有生成 csv 文件,我也找不到可以在 CDAP 中为输出文件设置名称的地方。我错过了任何配置步骤吗?
更新:
我们最终放弃了 CDAP,而使用了 Google DataFlow。
google-cloud-platform - 导入/导出 DataFusion 管道
有谁知道是否可以以编程方式导入/导出 DataFlow 管道(已部署或处于草稿状态)?
这个想法是编写一个脚本来删除和创建一个 DataFusion 实例,以避免在不使用时计费。通过 gloud 命令行,可以配置 DataFusion 集群并销毁它,但自动导出和导入我的所有管道也会很有趣。
不幸的是,官方文档并没有帮助我......
谢谢!