问题标签 [aws-glue-workflow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - 当我们使用 Glue 将数据从 DocumentDb 转储到 Redshift 时,从 Redshift 获取字符串而不是数组
我的数据在 documentdb 中有一个字符串数组。但是当我使用胶水转储到 Redshift 时,整个数组被视为一个字符串。我知道在 Redshift 中没有直接转换为数组的方法,但还有其他方法吗?
pyspark - AWS GLUE:o85.pyWriteDynamicFrame。无效的列类型:没有为类 oracle.jdbc.driver.T4CRowidAccessor 实现 getLong
有解决上述错误的方法吗?这是用 pyspark 代码编写的胶水脚本。
python - AWS Glue 作业参数
是否有机会动态获取作业参数?我的意思是不要使用这样的构造 args = getResolvedOptions(sys.argv, [some_value])。但是使用一些函数,它将所有作业的参数作为列表返回,例如?
aws-glue - AWS Glue 作业中的错误“LAUNCH ERROR | File --class does not exist请参阅日志了解详细信息。”
从工作流运行 Glue 作业后出现错误。错误状态 为“LAUNCH ERROR | File --class does not exist请参阅日志了解详细信息。” 尽管我们的工作是 python,但我们也尝试过传递作业参数“--class GlueApp”。我认为它没有考虑参数。这应该是默认参数。
amazon-web-services - AWS Glue Crawler - 如何避免爬取数据库“视图”
我正在使用<database>/%
包含路径中的语法使用 JDBC 连接来爬取整个 RDS 架构。Crawler 扫描所有表并扫描我无权访问的视图。我想避免扫描/抓取视图或物化视图。有人可以帮助我如何实现这一目标。
我试过排除路径,它没有用,而且我在模式中有太多视图。
amazon-web-services - 从 aws 胶水数据框中获取有关分区的信息
我有一个由爬虫创建的具有多个分区的表,我正在创建这样的数据框 glueContext.create_data_frame_from_catalog(database="123", table_name="123", push_down_predicate = predicate)
,从 api 获取谓词。是否存在从目录中获取所有数据的方法(不指定分区),但在某个地方能够访问分区信息(例如,作为数据框列)?这将是一个很大的优化,因为超过 2000 个分区为所有人创建数据帧是一个很大的开销。
python-3.x - 如何在 lambda 函数中使用 boto3 和 python 调用胶水工作流时传递 RunProperties?
我在 lambda 函数中的 python 代码:
我收到这样的错误:
我也试过这样:
但是得到了同样的错误。
任何人都可以告诉如何在调用胶水工作流运行时传递 RunProperties。RunProperties 是动态的,需要从 lambda 事件传递。