问题标签 [cdap]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
183 浏览

google-cloud-data-fusion - 使用自定义名称将零件文件缝合到一个

如果在 GCS Bucket 中同步,Data Fusion Pipeline 会在输出时为我们提供一个或多个部分文件。我的问题是我们如何将这些零件文件合并为一个并给它们起一个有意义的名称?

0 投票
3 回答
1239 浏览

google-cloud-data-fusion - 数据融合中的管道依赖

我在数据融合中有三个管道,分别是 A、B 和 C。我希望管道 C 在管道 A 和 B 都完成后被触发。管道触发器仅将依赖关系放在一个管道上。这可以在数据融合中实现吗?

0 投票
1 回答
201 浏览

google-cloud-data-fusion - 数据融合:GCS 创建创建文件夹而不是对象

我正在尝试使用 Data Fusion 的 GCS 创建插件创建一个 GCS 对象(文件)。 在此处输入图像描述

但它正在创建一个文件夹。

在此处输入图像描述

如何创建文件而不是文件夹?

0 投票
2 回答
291 浏览

oracle - Oracle cdap 到 BigQuery 多表的管道

我正在 cdap 上构建一个管道,我有一个 oracle 数据库,我在其中连接并获取一个表,然后将此数据连接到 BigQuery Multitables 组件。

两个组件都单独进行了验证,并且由 cdap 工具本身进行验证,当我测试完整管道的执行时,我收到了错误:

在此处输入图像描述

0 投票
1 回答
623 浏览

google-cloud-data-fusion - 如何从基于事件的触发器 CDAP 执行 Google Data Fusion Pipeline

有没有办法从基于 CDAP 事件的触发器运行 Google 数据融合管道?

第一个要求是,每当新文件到达 GCS 存储桶时。它将触发数据融合管道自动运行。

第二个要求是管道依赖,例如管道 A 未启动或失败,管道 B 无法运行。

谢谢

0 投票
1 回答
203 浏览

google-cloud-data-fusion - 在数据融合中应用 Rank 或分区 row_num 函数

我想在 Data Fusion 中对我的数据实现 rank 或分区 row_num 函数,但我没有找到任何插件可以这样做。

有没有办法做到这一点?

我想实现以下,

在此处输入图像描述

假设我有上面的数据,现在我想根据 AccountNumber 对数据进行分组,并将最近的记录发送到一个接收器并休息到其他接收器。所以从上面的数据来看,

Sink1 预计有,

在此处输入图像描述

水槽 2 ,

在此处输入图像描述

我计划通过按 AccountNumber 应用 rank 或 row_number 分区并按 Record_date desc 之类的功能排序并将具有 rank=1 或 row_num=1 的记录发送到一个接收器并休息到另一个接收器来进行这种隔离。

0 投票
2 回答
325 浏览

google-cloud-data-fusion - 数据融合:注意足够的内存问题和丢失的执行器问题

我正在通过 Google Data Fusion Pipeline 处理文件,但随着管道的进行,我遇到了警告和错误:

09/25/2020 12:31:31 WARN org.apache.spark.storage.memory.MemoryStore#66-Executor task launch worker for task 6 没有足够的空间在内存中缓存 rdd_10_6!(目前计算为 238.5 MB)

2020 年 9 月 25 日 12:45:05 错误 org.apache.spark.scheduler.cluster.YarnClusterScheduler#70-dispatcher-event-loop-1
在 cdap-soco-crea-99b67b97-fefb-11ea-8ee6- 上丢失了执行程序 2 daceb18eb3cf-w-0.c.datalake-dev-rotw-36b8.internal:容器标记为失败:container_1601016787667_0001_01_000003 在主机上:cdap-soco-crea-99b67b97-fefb-11ea-8ee6-daceb18eb3cf-w-0.c.datalake -dev-rotw-36b8.internal。退出状态:3。诊断:[2020-09-25 07:15:05.226]容器启动异常。容器 ID:container_1601016787667_0001_01_000003 退出代码:3

请帮忙 !

0 投票
1 回答
171 浏览

cdap - cdap 沙箱无法启动 - 无法读取事务状态版本

我已经使用此处找到的配方安装了 CDAP 沙箱的二进制文件。我正在构建一个插件,并且可能有一个调试器阻止了工作。我重新启动了运行沙箱的 Linux PC,现在当我尝试启动 CDAP 沙箱时,最终出现错误:

我的直觉是,上次 CDAP 运行时,它没有机会为运行中的运行写入事务状态,现在我损坏了一些状态。由于我现在只是沙盒测试,我很乐意冷启动CDAP。不幸的是,我还没有找到任何食谱。有没有人见过类似的东西或有冷启动 CDAP 沙箱的秘诀?

0 投票
1 回答
720 浏览

google-cloud-platform - GCP Data Fusion 多表导入

我正在尝试使用多个数据库表和 BigQuery 多表数据融合插件在一个管道中导入多个表

管道

但是当我尝试执行时,出现以下错误

我正在使用数据融合版本 6.1.4 多数据库表版本 1.2.0 和 BigQuery 多表版本 0.14.8。

关于可能是什么问题的任何建议?

编辑:

下面配置多表数据库源

经过进一步测试,问题是源响应为空,因为数据融合不是从源数据库读取视图,而只是从表中读取

0 投票
1 回答
140 浏览

google-cloud-platform - Datafusion 使用 XML 2003 工作表数据加载 BQ

我有一个系统将数据导出为 XML 2003 工作表。我需要通过数据融合或使用 GCP 资源的任何其他进程将其加载到 Bigquery。所以

  • 是否可以使用 DataFusion 完成此操作
  • 我遵循了https://www.youtube.com/watch?v=e-5K4cxwGrc&feature=youtu.be中的 XML 转换过程。到目前为止,我已经达到了标题和数据行出现在不同行但同一列中的地步。我无法将它进一步解析(使用 Wrangler)到各个列,因为它只是不断隔离不同行但同一列中的 json 键:值对

由于我是数据融合的新手,请感谢一些详细的指导。