问题标签 [cdap]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
186 浏览

google-cloud-platform - GCP Datafusion 重复来自 GCS 的相同数据

我有一个管道,它从存储中读取 20 个文件并从中提取每个文件的路径并加载到表中。理想情况下,记录数应该是 20,但是当我执行管道时,相同的记录一次又一次地传输,使总记录数无限增加。我想知道我是否在这里犯了任何错误。

0 投票
3 回答
889 浏览

google-groups - 使用参数设置器的数据融合中的宏

通过提供参数值来使用 Argument setter 我想让 Datafusion 管道成为可重复使用的。正如许多其他答案所说,尝试使用 Google 指南中给出的云可重用管道示例来实现。我无法传递参数 Json 文件。那么如何为存储在 Google 存储中的参数 Json 文件创建 API。请解释要传递给参数设置器的值,如 URL、请求响应等,如果你们中的任何一个已经在您的项目中实现。

谢谢你。

0 投票
1 回答
368 浏览

timezone - 如何假设时间戳是 MST(美国/山区)而不是 UTC

我正在数据融合中构建一个管道,我们使用数据库插件从我们的本地 Oracle 数据库中提取数据并插入到 BigQuery 表中。数据库插件可以正确推断timestampOracle 表中日期字段的数据类型。然而,问题是日期字段实际上是在 MST 时区。然而,Data Fusion 假定它们采用 UTC。

例如:本地数据库中的日期是Mar 11, 2020, 5:45:40 AM MST并且它出现Mar 11, 2020, 5:45:40 AM UTC在 BigQuery 中。

在管道中,我使用 Wrangler 插件使用指令转换列数据类型。我尝试使用该parse-as-date DATE_COLUMN US/Mountain指令,但它不起作用。

我已经询问 GCP 支持是否有办法将默认数据融合时区设置为 MST。我在这里问是否有办法用插件来做到这一点。

0 投票
1 回答
622 浏览

google-cloud-platform - 无法使用 CDAP RESTAPI 上传数据融合插件 json 文件

我正在尝试使用 CDAP RESTAPI 参考将我的自定义插件上传到数据融合。我按照文档执行了这些步骤,但我仍然没有找到使用 REST API 添加插件 JSON 文件的方法。

curl -X POST -H "授权:承载 $(gcloud auth print-access-token)" "${CDAP_ENDPOINT}/api/v3/namespaces/vega_demo/artifacts/example" -H "Artifact-Extends: system:cdap-数据管道[6.0.0,10.0.0-SNAPSHOT)/system:cdap-data-streams[6.0.0,10.0.0-SNAPSHOT)" --data-binary @/path/to/example-1.0.0 -SNAPSHOT.jar @/path/to/example-1.0.0-SNAPSHOT.json

工件添加成功curl:(6)无法解析主机:

插件已加载但配置 json 文件未加载导致插件错误

0 投票
0 回答
186 浏览

google-cloud-platform - 如何使用 CDAP CLI 连接到 Datafusion 实例

我已经在我的 linux 机器上安装了 CDAP,我正在尝试以 ./cdap cli --uri https://xxxxxxxx.datafusion.googleusercontent.com/cdap/ns/default的格式从 CLI 连接到 GCP 数据融合实例,我我面临连接超时问题。如何解决这个问题

0 投票
0 回答
385 浏览

google-cloud-data-fusion - Google Data Fusion:“循环”输入数据,然后在每个输入行执行多个 Restful API 调用

我有以下挑战,我想最​​好在 Google Data Fusion 中解决:
我有一个 Web 服务,它返回大约 30-50 个元素,描述 JSON 有效负载中的发票,如下所示:

对于每次出现的情况,serviceId我都需要https://example.com/api/v2/services/{serviceId}/items重复调​​用另一个 web 服务,每个服务serviceId都来自第一次调用。我只对第二次调用的数据感兴趣,这些数据将被持久化到 BigQuery 中。第二个服务调用不支持通配符或任何其他聚合项目的机制 - 即,如果我serviceId从第一次调用中获得 30 个,我需要调用第二个 web 服务 30 次。

我已经进行了第一次调用,我已经使用硬编码进行了第二次调用,serviceId并且还持久化了 BigQuery。这些调用仅使用 Data Fusion HTTP 适配器。

但是,如何使用第一个服务的输出,以便为第一个调用返回的每一行的第二个服务发出一个 web 服务调用 - 有效地循环所有serviceId

我完全理解这在 Python 代码中非常容易,但为了可维护性和适合我们的环境,我更愿意在数据融合中解决这个问题,或者需要谷歌提供的任何其他即服务产品。

非常感谢任何帮助!Ĵ

PS:这不是大数据问题——我正在查看大约 50serviceId项,也许 300 项。

0 投票
1 回答
737 浏览

google-cloud-data-fusion - 数据融合 - 参数设置器插件中定义的参数间歇性地取代运行时参数

使用 Data Fusion Argument Setter,我已经在其中定义了所有参数以实现可重用管道。在执行它时,我为一些参数提供了运行时参数,这些参数与 Argument Setter 中嵌入的 JSON URL 中提供的默认参数不同。但是很多时候,管道最终会从 Argument Setter URL 中获取默认值,而不是 Runtime Arguments,从而导致失败。

这种行为在我创建的每个管道中都不一致 - 这证实了运行时参数应该取代为参数定义的任何先前值。

我使用的解决方法是删除插件并为每个新管道重新添加它。但这违背了创建可重用管道的目的。

有没有人遇到过这个问题?

当前运行时选项

0 投票
1 回答
228 浏览

google-cloud-data-fusion - 从 GCP 数据融合/CDAP 中的其他管道/作业运行管道/作业

从 GCP 数据融合/CDAP 中的其他管道/作业运行管道/作业。Talend 有阶段“tRunJob”在其他作业中运行作业。在数据融合或 CDAP 开源平台中查看相同类型的功能。

0 投票
1 回答
771 浏览

google-cloud-platform - GCP 数据融合没有发现错误

我正在尝试使用带有私有 IP 选项的 GCP Data Fusion Basic Edition,但是当我尝试创建管道时,每个操作都会给我这个错误

未发现请求 POST /v3/namespaces/system/apps/pipeline/services/studio/methods/v1/contexts/default/validations/stage HTTP/1.1

有关如何解决此问题的任何建议

谢谢

0 投票
1 回答
125 浏览

google-cloud-data-fusion - 我们是否有谷歌云数据融合草案的到期日

任何人都知道保存的 CDAP 草稿是否过期,我在其中一个云数据融合实例中创建了几个草稿,并且其他人正在使用同一个实例。但是大约 2-3 天后,当我试图检索草稿时,发现它丢失了,并且没有人确定删除它。只是想知道我们在 CDAP 中创建的每个草稿是否都附有过期时间?