问题标签 [aws-glue-workflow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
31 浏览

amazon-web-services - 当我们使用 Glue 将数据从 DocumentDb 转储到 Redshift 时,从 Redshift 获取字符串而不是数组

我的数据在 documentdb 中有一个字符串数组。但是当我使用胶水转储到 Redshift 时,整个数组被视为一个字符串。我知道在 Redshift 中没有直接转换为数组的方法,但还有其他方法吗?

0 投票
0 回答
66 浏览

amazon-web-services - AWS Glue 工作流程 - 使用不同的参数多次添加相同的作业

有没有办法可以添加具有相同作业的节点然后分配不同的参数?这样我就可以重复使用一份工作。我不想为此创建多个工作流或作业。

当我在另一个节点中添加相同的作业时,我收到错误“更新触发器 xx 失败。:操作包含重复的作业名称:xx”

这是屏幕截图

在此处输入图像描述

0 投票
0 回答
20 浏览

pyspark - AWS GLUE:o85.pyWriteDynamicFrame。无效的列类型:没有为类 oracle.jdbc.driver.T4CRowidAccessor 实现 getLong

有解决上述错误的方法吗?这是用 pyspark 代码编写的胶水脚本。

0 投票
1 回答
45 浏览

amazon-web-services - AWS Glue - 为作业输出文件名添加前缀

AWS Glue 作业默认输出文件名以 jr_ 开头。当我在 Cloud Watch 日志流下引用这些日志时,很难找到具体的工作。

任何人都知道我是否可以重命名这些或添加前缀/后缀?

在此处输入图像描述

0 投票
0 回答
34 浏览

python - AWS Glue 作业参数

是否有机会动态获取作业参数?我的意思是不要使用这样的构造 args = getResolvedOptions(sys.argv, [some_value])。但是使用一些函数,它将所有作业的参数作为列表返回,例如?

0 投票
0 回答
49 浏览

aws-glue - AWS Glue 作业中的错误“LAUNCH ERROR | File --class does not exist请参阅日志了解详细信息。”

从工作流运行 Glue 作业后出现错误。错误状态 为“LAUNCH ERROR | File --class does not exist请参阅日志了解详细信息。” 尽管我们的工作是 python,但我们也尝试过传递作业参数“--class GlueApp”。我认为它没有考虑参数。这应该是默认参数。

0 投票
0 回答
103 浏览

amazon-web-services - 如何解决 AWS Glue 错误?:Service down InternalServiceException: Failed to meet resource limits for operation

今天尝试在 Glue Studio 中进行数据预览时,我遇到了这个错误,我是 AWS 世界的新手,如果有人用简单的术语解释我这个错误以及如何解决这个错误,那就太好了。

错误截图:

错误截图

0 投票
0 回答
55 浏览

amazon-web-services - AWS Glue Crawler - 如何避免爬取数据库“视图”

我正在使用<database>/%包含路径中的语法使用 JDBC 连接来爬取整个 RDS 架构。Crawler 扫描所有表并扫描我无权访问的视图。我想避免扫描/抓取视图或物化视图。有人可以帮助我如何实现这一目标。

我试过排除路径,它没有用,而且我在模式中有太多视图。

0 投票
0 回答
16 浏览

amazon-web-services - 从 aws 胶水数据框中获取有关分区的信息

我有一个由爬虫创建的具有多个分区的表,我正在创建这样的数据框 glueContext.create_data_frame_from_catalog(database="123", table_name="123", push_down_predicate = predicate),从 api 获取谓词。是否存在从目录中获取所有数据的方法(不指定分区),但在某个地方能够访问分区信息(例如,作为数据框列)?这将是一个很大的优化,因为超过 2000 个分区为所有人创建数据帧是一个很大的开销。

0 投票
0 回答
12 浏览

python-3.x - 如何在 lambda 函数中使用 boto3 和 python 调用胶水工作流时传递 RunProperties?

我在 lambda 函数中的 python 代码:

我收到这样的错误:

我也试过这样:

但是得到了同样的错误。

任何人都可以告诉如何在调用胶水工作流运行时传递 RunProperties。RunProperties 是动态的,需要从 lambda 事件传递。