问题标签 [aws-glue-workflow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1514 浏览

amazon-web-services - AWS Glue 工作流在任何 ETL 作业失败时触发电子邮件

在 AWS Glue 中,我正在使用工作流执行几个 ETL 作业,现在我想通过电子邮件通知企业任何 ETL 作业失败。我需要帮助来获取失败作业的名称并将其传递给会触发电子邮件的作业。

0 投票
0 回答
186 浏览

amazon-web-services - 即使出现 Glue 作业错误,AWS Glue 工作流也标有“已完成”状态

我正在使用 CDK 创建 Glue 工作流,如下所示。它由 Glue 作业和爬虫组成。是否可以将工作流的状态标记为Error任何组件发生故障时?目前它总是被标记为Completed

0 投票
1 回答
408 浏览

amazon-web-services - 将 Glue 触发器附加到 CDK 中的工作流

我在 CDK 中创建了一个工作流和一个触发器,但是当我查看控制台时,工作流是空的。关于如何将触发器附加到我的工作流程的任何想法?

0 投票
1 回答
473 浏览

amazon-web-services - 如何在不使用复制命令的情况下使用 AWS Glue 将 s3 存储桶上的 csv 文件中的数据导入/加载到 Redshift

包含销售数据的输入文件将在特定时间以 csv 格式发送到 s3 存储桶,每天最多 5 个文件。

使用 Glue 将要加载到 Redshift 中的 csv 文件数据。

在加载到 Redshift 之前,需要进行转换,例如从 csv 文件文件进行计算和映射。

请分享您对如何构建有效解决方案的意见/建议。

下面一定要注意。

1.复制客户端可能发送或不发送的csv。2.same data表示前一天的数据已在第二天发送。3. 想要处理 Redshift 表上的更新和插入。4. csv 文件在处理/加载到 Redshift 后,将这些文件移动到 S3 存储桶中的另一个位置。

0 投票
0 回答
69 浏览

amazon-web-services - 使用 S3 在 AWS GLUE 中将多个数据源列转换为单个 DataTarget 列作为 JSON 对象

我是 AWS 服务的初学者,正在使用 AWS Glue 进行 ETL 工作。

我的数据源和目标都来自 S3 存储桶(.csv 文件)。

在这里,我需要将一些数据源列(多个)转换为 JSON 对象数组格式的 DataTarget 文件中的单列,其余列需要与其他单列映射。

例如:[{“Title”:“Size”,“Key”:“Size”,“Value”:“40”,“Type”:“可配置”}}

Title、Key、Type 是数据源文件中的独立列。我需要将这些列组合成一个名为“Attributes”的列,并且该值应该类似于前面提到的 Eg。

任何帮助将不胜感激。

提前致谢

0 投票
0 回答
76 浏览

amazon-web-services - AWS Glue 映射对来自不同工作流的作业的依赖关系

我只想在从不同的工作流程执行某些作业之后运行作业。前任。假设我有 4 个工作 job1、job2、job3、job4。我创建了工作流 - 工作流 1 与作业 1 和作业 2。我创建了另一个工作流 - 工作流 2 与作业 3 和作业 4。现在我想为job4添加条件,它应该在job3和job1(来自workflow1的工作)完成时运行。如果有人有任何线索,请告诉我。

0 投票
1 回答
340 浏览

amazon-web-services - AWS Glue - 条件触发器是否可以根据另一个工作流程中的作业条件触发?

我将 AWS Glue 服务与两个独立的工作流程(比如说工作流程 A 和工作流程 B)一起使用。

我在工作流 B 中创建了一个条件类型触发器,它监视工作流 A 中的作业,并在它们成功时触发。如果它从工作流 A (即不同的工作流)监视作业,这个触发器真的可以触发吗?

我已经对此进行了几次测试,但似乎工作流 B 中应该由该特定触发器触发的作业似乎并没有运行,尽管所有作业都被监视成功。

我似乎找不到有关此特定 AWS Glue 设置的任何信息。

0 投票
1 回答
175 浏览

amazon-web-services - 当数据目录之一没有记录时,aws 胶水工作室内部连接会出错

我是 aws 胶水工作室的新手。我在 AWS 胶水数据库中创建了两个表,分区为当前日期。

我正在做内连接和左反连接来处理这项工作。

如果没有匹配,我的胶水作业失败并出现错误

AnalysisException:'无法解析()中的列名“列名”;'

我尝试了自定义节点并在加入之前从集合中选择它..但没有帮助。胶水工作室中可供使用的选项非常有限。让我知道胶水工作室本身是否有办法解决这个问题。

0 投票
0 回答
185 浏览

amazon-web-services - 在 AWS 胶水工作流程中,在所有观察到的事件成功运行后不会触发条件触发器

在 AWS 工作流程中,我创建了一个触发器,它将监视 4 个不同作业的 SUCCEEDED 状态,如果它们成功,那么它将调用不同的粘合作业。我检查了作业的状态,它们已成功运行。但在所有四个相关作业都成功运行后,触发器并未启动。

0 投票
1 回答
154 浏览

amazon-web-services - 如何调试 aws 胶水 pyspark 作业

我有一个 aws glue pyspark 作业,它在某个命令后长时间运行。在日志中,即使是简单的“print hello”语句,它也不会在该命令之后写入任何内容。如何调试长时间运行甚至不写入日志的 aws 胶水 pyspark 作业。作业没有抛出任何错误,它在控制台中显示运行状态