问题标签 [cdap]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-cloud-data-fusion - 使用自定义名称将零件文件缝合到一个
如果在 GCS Bucket 中同步,Data Fusion Pipeline 会在输出时为我们提供一个或多个部分文件。我的问题是我们如何将这些零件文件合并为一个并给它们起一个有意义的名称?
google-cloud-data-fusion - 数据融合中的管道依赖
我在数据融合中有三个管道,分别是 A、B 和 C。我希望管道 C 在管道 A 和 B 都完成后被触发。管道触发器仅将依赖关系放在一个管道上。这可以在数据融合中实现吗?
google-cloud-data-fusion - 如何从基于事件的触发器 CDAP 执行 Google Data Fusion Pipeline
有没有办法从基于 CDAP 事件的触发器运行 Google 数据融合管道?
第一个要求是,每当新文件到达 GCS 存储桶时。它将触发数据融合管道自动运行。
第二个要求是管道依赖,例如管道 A 未启动或失败,管道 B 无法运行。
谢谢
google-cloud-data-fusion - 在数据融合中应用 Rank 或分区 row_num 函数
我想在 Data Fusion 中对我的数据实现 rank 或分区 row_num 函数,但我没有找到任何插件可以这样做。
有没有办法做到这一点?
我想实现以下,
假设我有上面的数据,现在我想根据 AccountNumber 对数据进行分组,并将最近的记录发送到一个接收器并休息到其他接收器。所以从上面的数据来看,
Sink1 预计有,
水槽 2 ,
我计划通过按 AccountNumber 应用 rank 或 row_number 分区并按 Record_date desc 之类的功能排序并将具有 rank=1 或 row_num=1 的记录发送到一个接收器并休息到另一个接收器来进行这种隔离。
google-cloud-data-fusion - 数据融合:注意足够的内存问题和丢失的执行器问题
我正在通过 Google Data Fusion Pipeline 处理文件,但随着管道的进行,我遇到了警告和错误:
09/25/2020 12:31:31 WARN org.apache.spark.storage.memory.MemoryStore#66-Executor task launch worker for task 6 没有足够的空间在内存中缓存 rdd_10_6!(目前计算为 238.5 MB)
2020 年 9 月 25 日 12:45:05 错误 org.apache.spark.scheduler.cluster.YarnClusterScheduler#70-dispatcher-event-loop-1
在 cdap-soco-crea-99b67b97-fefb-11ea-8ee6- 上丢失了执行程序 2 daceb18eb3cf-w-0.c.datalake-dev-rotw-36b8.internal:容器标记为失败:container_1601016787667_0001_01_000003 在主机上:cdap-soco-crea-99b67b97-fefb-11ea-8ee6-daceb18eb3cf-w-0.c.datalake -dev-rotw-36b8.internal。退出状态:3。诊断:[2020-09-25 07:15:05.226]容器启动异常。容器 ID:container_1601016787667_0001_01_000003 退出代码:3
请帮忙 !
cdap - cdap 沙箱无法启动 - 无法读取事务状态版本
我已经使用此处找到的配方安装了 CDAP 沙箱的二进制文件。我正在构建一个插件,并且可能有一个调试器阻止了工作。我重新启动了运行沙箱的 Linux PC,现在当我尝试启动 CDAP 沙箱时,最终出现错误:
我的直觉是,上次 CDAP 运行时,它没有机会为运行中的运行写入事务状态,现在我损坏了一些状态。由于我现在只是沙盒测试,我很乐意冷启动CDAP。不幸的是,我还没有找到任何食谱。有没有人见过类似的东西或有冷启动 CDAP 沙箱的秘诀?
google-cloud-platform - Datafusion 使用 XML 2003 工作表数据加载 BQ
我有一个系统将数据导出为 XML 2003 工作表。我需要通过数据融合或使用 GCP 资源的任何其他进程将其加载到 Bigquery。所以
- 是否可以使用 DataFusion 完成此操作
- 我遵循了https://www.youtube.com/watch?v=e-5K4cxwGrc&feature=youtu.be中的 XML 转换过程。到目前为止,我已经达到了标题和数据行出现在不同行但同一列中的地步。我无法将它进一步解析(使用 Wrangler)到各个列,因为它只是不断隔离不同行但同一列中的 json 键:值对
由于我是数据融合的新手,请感谢一些详细的指导。