问题标签 [aws-glue-workflow]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

41 问题

0 投票

2 回答

31 浏览

amazon-web-services - 当我们使用 Glue 将数据从 DocumentDb 转储到 Redshift 时，从 Redshift 获取字符串而不是数组

我的数据在 documentdb 中有一个字符串数组。但是当我使用胶水转储到 Redshift 时，整个数组被视为一个字符串。我知道在 Redshift 中没有直接转换为数组的方法，但还有其他方法吗？

2021-11-24T08:35:07.380

0 投票

0 回答

66 浏览

amazon-web-services - AWS Glue 工作流程 - 使用不同的参数多次添加相同的作业

有没有办法可以添加具有相同作业的节点然后分配不同的参数？这样我就可以重复使用一份工作。我不想为此创建多个工作流或作业。

当我在另一个节点中添加相同的作业时，我收到错误“更新触发器 xx 失败。：操作包含重复的作业名称：xx”

这是屏幕截图

amazon-web-services aws-glue aws-glue-data-catalog aws-glue-spark aws-glue-workflow

2021-12-06T07:19:51.197

0 投票

0 回答

20 浏览

pyspark - AWS GLUE：o85.pyWriteDynamicFrame。无效的列类型：没有为类 oracle.jdbc.driver.T4CRowidAccessor 实现 getLong

有解决上述错误的方法吗？这是用 pyspark 代码编写的胶水脚本。

pyspark aws-glue aws-glue-spark aws-glue-workflow

2021-12-06T17:25:56.590

0 投票

1 回答

45 浏览

amazon-web-services - AWS Glue - 为作业输出文件名添加前缀

AWS Glue 作业默认输出文件名以 jr_ 开头。当我在 Cloud Watch 日志流下引用这些日志时，很难找到具体的工作。

任何人都知道我是否可以重命名这些或添加前缀/后缀？

amazon-web-services aws-glue aws-glue-data-catalog aws-glue-spark aws-glue-workflow

2021-12-09T06:35:09.940

0 投票

0 回答

34 浏览

python - AWS Glue 作业参数

是否有机会动态获取作业参数？我的意思是不要使用这样的构造 args = getResolvedOptions(sys.argv, [some_value])。但是使用一些函数，它将所有作业的参数作为列表返回，例如？

python amazon-web-services parameters aws-glue aws-glue-workflow

2021-12-17T17:51:52.217

0 投票

0 回答

49 浏览

aws-glue - AWS Glue 作业中的错误“LAUNCH ERROR | File --class does not exist请参阅日志了解详细信息。”

从工作流运行 Glue 作业后出现错误。错误状态 为“LAUNCH ERROR | File --class does not exist请参阅日志了解详细信息。” 尽管我们的工作是 python，但我们也尝试过传递作业参数“--class GlueApp”。我认为它没有考虑参数。这应该是默认参数。

aws-glue aws-glue-workflow

2021-12-31T16:06:35.710

0 投票

0 回答

103 浏览

amazon-web-services - 如何解决 AWS Glue 错误？：Service down InternalServiceException: Failed to meet resource limits for operation

今天尝试在 Glue Studio 中进行数据预览时，我遇到了这个错误，我是 AWS 世界的新手，如果有人用简单的术语解释我这个错误以及如何解决这个错误，那就太好了。

错误截图：

amazon-web-services aws-glue aws-glue-data-catalog aws-billing aws-glue-workflow

2022-01-06T14:34:39.510

0 投票

0 回答

55 浏览

amazon-web-services - AWS Glue Crawler - 如何避免爬取数据库“视图”

我正在使用<database>/%包含路径中的语法使用 JDBC 连接来爬取整个 RDS 架构。Crawler 扫描所有表并扫描我无权访问的视图。我想避免扫描/抓取视图或物化视图。有人可以帮助我如何实现这一目标。

我试过排除路径，它没有用，而且我在模式中有太多视图。

amazon-web-services amazon-rds aws-glue aws-glue-data-catalog aws-glue-workflow

2022-01-10T17:53:21.320

0 投票

0 回答

16 浏览

amazon-web-services - 从 aws 胶水数据框中获取有关分区的信息

我有一个由爬虫创建的具有多个分区的表，我正在创建这样的数据框 glueContext.create_data_frame_from_catalog(database="123", table_name="123", push_down_predicate = predicate)，从 api 获取谓词。是否存在从目录中获取所有数据的方法（不指定分区），但在某个地方能够访问分区信息（例如，作为数据框列）？这将是一个很大的优化，因为超过 2000 个分区为所有人创建数据帧是一个很大的开销。

amazon-web-services aws-glue aws-glue-data-catalog aws-glue-spark aws-glue-workflow

2022-02-07T20:20:38.113

0 投票

0 回答

12 浏览

python-3.x - 如何在 lambda 函数中使用 boto3 和 python 调用胶水工作流时传递 RunProperties？

我在 lambda 函数中的 python 代码：

我收到这样的错误：

我也试过这样：

但是得到了同样的错误。

任何人都可以告诉如何在调用胶水工作流运行时传递 RunProperties。RunProperties 是动态的，需要从 lambda 事件传递。

python-3.x amazon-web-services aws-lambda aws-glue aws-glue-workflow

2022-02-09T14:53:00.283

1 2 3 4 5 6 7 8 9 10

问题标签 [aws-glue-workflow]

Reference