问题标签 [aws-glue-workflow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
33 浏览

aws-glue - AWS Glue 作业中是否有可用的会话?

在我的 AWS Glue 工作流(使用 CloudFormation 定义)中,我有一些作业(pythonshell)具有重复的逻辑来创建一些参数,例如相同的数据库连接字符串等。此外,通过 Boto3 也有一个重复的逻辑,如下所示:

获取数据库的相对密码。

如前所述,这种逻辑在多个工作中重复出现。是否有任何排序会话,或者您对在同一工作流程的多个作业中存储此类信息有任何想法?

0 投票
0 回答
983 浏览

amazon-web-services - 安装 AWS Glue ETL 库

问题

设置 AWS Glue 库后,我面临以下错误:

设想

我正在尝试使用 PIPENV 在虚拟环境中安装 AWS GLue ETL 库。所以我得到了以下带有环境变量的 .env 文件:

我的代码最初非常简单,我只创建 Glue 上下文,如下所示:

你们知道这可能是什么问题吗?

0 投票
0 回答
398 浏览

amazon-cloudformation - 无法使用依赖于 AWS Glue 中的爬网程序的控制台创建触发器

我正在尝试在 Glue 中创建一个触发器,它会监视我的一组爬虫,然后触发 ETL 作业。根据文档,这应该相当简单。

但是,当我登录控制台并尝试创建条件触发器时,我得到的唯一选择是观看其他作业而不是爬虫。这让我很困惑。这是不推荐使用的功能吗?

暂时我将使用 Cloudformation,但现在我很好奇将来是否也不会支持它。

0 投票
0 回答
775 浏览

amazon-web-services - AWS Glue:架构中未找到列“column_name”

我正在尝试在 AWS Glue 中创建 ETL 作业。用例如下:当在运行 ETL 作业后在一个源表中添加一列时,当我们尝试重新运行 etl 作业时,etl 作业失败,说找不到列(在目标表中)

如何启用 ETL 在目标表中创建该列。因为 ETL 已经有权在表不存在时创建表。

例子:

源表:

ETL 作业配置为加入它们两者,导致

在此之前,它可以完美运行。

现在,如果表 Y 得到如下修改

我重新运行爬虫(检测源列)

然后我重新运行 ETL 作业,它失败并显示以下错误消息

在架构中找不到列“column_5”

我该如何解决这个问题?

用胶水脚本更新:

0 投票
0 回答
484 浏览

aws-glue - AWS Glue - 数据沿袭和作业跟踪

有没有一种方法可以跟踪我们在 AWS Glue 中创建的每个作业正在做什么?例如,如果执行相同操作的作业被创建两次,那么在进行每次转换时数据的数据沿袭?

0 投票
0 回答
140 浏览

amazon-web-services - 从 Salesforce Marketing Cloud 到 Amazon S3 的数据摄取

我的要求:我想使用亚马逊胶水工作流程和作业将数据从 salesforce 营销云提取到亚马逊 s3,并安排作业每小时运行一次,以将所有对象/字段从 Salesforce Marketing Cloud 获取到我的 Amazon S3 存储桶以进一步获取数据数据分析。我正在寻找开源方式和使用 aws 胶水作业的最佳方法。

0 投票
1 回答
386 浏览

python - 对于 Glue 工作流中的 Glue 作业 - 给定 Glue 运行 ID,如何访问 Glue 工作流 runid?

一个 AWS Glue 工作流具有多个链接的 AWS Glue 作业。

如何获取给定 AWS Glue 作业运行 ID 的工作流 ID?

我无法在 aws-cli 中找到 api。

请注意,我正在尝试使用外部 Python 代码分析作业运行指标。

0 投票
0 回答
33 浏览

aws-glue - 如何创建嵌套的 CASE 或 IF 以更改列中的数据值

我需要从 aws 胶水的列中更新数据值,我正在寻找类似 CASE 语句或 IF ELSE 嵌套的内容。

例子:

谢谢阅读 :)

0 投票
0 回答
371 浏览

amazon-web-services - 如何在 aws 胶水上设置多个自动化工作流程

我们正在尝试在我们的 nodejs 项目中使用 AWS Glue 进行 ETL 操作。工作流程如下

  1. 用户上传 csv 文件
  2. 从 XYZ 格式到 ABC 格式的数据转换(映射和更改字段名称)
  3. 将转换后的 csv 文件下载到本地系统

请注意,此流程应以编程方式发生(创建爬虫、作业触发器应以编程方式完成,而不是使用控制台)。我不知道为什么文档和其他文章总是展示如何创建爬虫,从胶水控制台创建作业?

我相信我们必须创建 lambda 函数和触发器。但不太确定如何实现这种端到端流程。谁能帮帮我吗。谢谢

0 投票
1 回答
1853 浏览

amazon-web-services - 如何配置 Spark / Glue 以避免在 Glue 作业成功执行后创建空的 $_folder_$

我有一个简单的胶水 etl 作业,由胶水工作流程触发。它从爬虫表中删除重复数据并将结果写回 S3 存储桶。作业成功完成。但是,spark 生成“$文件夹$”的空文件夹仍保留在 s3 中。它在层次结构中看起来不太好,并导致混乱。成功完成作业后,有什么方法可以配置火花或胶水上下文以隐藏/删除这些文件夹?

在此处输入图像描述

---------------------S3 映像 --------------------- 在此处输入图像描述