问题标签 [aws-glue-workflow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
aws-glue - AWS Glue 作业中是否有可用的会话?
在我的 AWS Glue 工作流(使用 CloudFormation 定义)中,我有一些作业(pythonshell)具有重复的逻辑来创建一些参数,例如相同的数据库连接字符串等。此外,通过 Boto3 也有一个重复的逻辑,如下所示:
获取数据库的相对密码。
如前所述,这种逻辑在多个工作中重复出现。是否有任何排序会话,或者您对在同一工作流程的多个作业中存储此类信息有任何想法?
amazon-web-services - 安装 AWS Glue ETL 库
问题
设置 AWS Glue 库后,我面临以下错误:
设想
我正在尝试使用 PIPENV 在虚拟环境中安装 AWS GLue ETL 库。所以我得到了以下带有环境变量的 .env 文件:
我的代码最初非常简单,我只创建 Glue 上下文,如下所示:
你们知道这可能是什么问题吗?
amazon-cloudformation - 无法使用依赖于 AWS Glue 中的爬网程序的控制台创建触发器
我正在尝试在 Glue 中创建一个触发器,它会监视我的一组爬虫,然后触发 ETL 作业。根据文档,这应该相当简单。
但是,当我登录控制台并尝试创建条件触发器时,我得到的唯一选择是观看其他作业而不是爬虫。这让我很困惑。这是不推荐使用的功能吗?
暂时我将使用 Cloudformation,但现在我很好奇将来是否也不会支持它。
amazon-web-services - AWS Glue:架构中未找到列“column_name”
我正在尝试在 AWS Glue 中创建 ETL 作业。用例如下:当在运行 ETL 作业后在一个源表中添加一列时,当我们尝试重新运行 etl 作业时,etl 作业失败,说找不到列(在目标表中)
如何启用 ETL 在目标表中创建该列。因为 ETL 已经有权在表不存在时创建表。
例子:
源表:
ETL 作业配置为加入它们两者,导致
在此之前,它可以完美运行。
现在,如果表 Y 得到如下修改
我重新运行爬虫(检测源列)
然后我重新运行 ETL 作业,它失败并显示以下错误消息
在架构中找不到列“column_5”
我该如何解决这个问题?
用胶水脚本更新:
aws-glue - AWS Glue - 数据沿袭和作业跟踪
有没有一种方法可以跟踪我们在 AWS Glue 中创建的每个作业正在做什么?例如,如果执行相同操作的作业被创建两次,那么在进行每次转换时数据的数据沿袭?
amazon-web-services - 从 Salesforce Marketing Cloud 到 Amazon S3 的数据摄取
我的要求:我想使用亚马逊胶水工作流程和作业将数据从 salesforce 营销云提取到亚马逊 s3,并安排作业每小时运行一次,以将所有对象/字段从 Salesforce Marketing Cloud 获取到我的 Amazon S3 存储桶以进一步获取数据数据分析。我正在寻找开源方式和使用 aws 胶水作业的最佳方法。
python - 对于 Glue 工作流中的 Glue 作业 - 给定 Glue 运行 ID,如何访问 Glue 工作流 runid?
一个 AWS Glue 工作流具有多个链接的 AWS Glue 作业。
如何获取给定 AWS Glue 作业运行 ID 的工作流 ID?
我无法在 aws-cli 中找到 api。
请注意,我正在尝试使用外部 Python 代码分析作业运行指标。
aws-glue - 如何创建嵌套的 CASE 或 IF 以更改列中的数据值
我需要从 aws 胶水的列中更新数据值,我正在寻找类似 CASE 语句或 IF ELSE 嵌套的内容。
例子:
谢谢阅读 :)
amazon-web-services - 如何在 aws 胶水上设置多个自动化工作流程
我们正在尝试在我们的 nodejs 项目中使用 AWS Glue 进行 ETL 操作。工作流程如下
- 用户上传 csv 文件
- 从 XYZ 格式到 ABC 格式的数据转换(映射和更改字段名称)
- 将转换后的 csv 文件下载到本地系统
请注意,此流程应以编程方式发生(创建爬虫、作业触发器应以编程方式完成,而不是使用控制台)。我不知道为什么文档和其他文章总是展示如何创建爬虫,从胶水控制台创建作业?
我相信我们必须创建 lambda 函数和触发器。但不太确定如何实现这种端到端流程。谁能帮帮我吗。谢谢