问题标签 [aws-glue]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1598 浏览

python - AWS Glue 通过 API 创建触发器

我有一张表,其中包含各种工作的几个时间表。

我想通过 AWS Glue API处理记录并创建触发器。

http://docs.aws.amazon.com/glue/latest/dg/aws-glue-api.html

上面的链接显示了适用于 AWS Glue 的文档。

有没有人可以提供有关如何使用 API 的代码片段?我在网上搜索了足够长的时间,但没有找到任何提供代码片段的文档!

我正在寻找以下 API CALL 的代码片段。 CreateTrigger 动作(Python:create_trigger)

任何帮助都会很棒。

0 投票
5 回答
3791 浏览

python - AWS Glue 截断红移表

我创建了一个将数据从 S3(csv 文件)复制到 Redshift 的 Glue 作业。它工作并填充所需的表。

但是,我需要在此过程中清除表,因为在该过程完成后我留下了重复的记录。

我正在寻找一种方法来将此清除添加到 Glue 过程中。任何意见,将不胜感激。

谢谢。

0 投票
2 回答
2684 浏览

json - AWS Athena 将 result.json 输出到 s3 - CREATE TABLE AS / INSERT INTO SELECT?

是否有可能将 AWS Athena 查询的结果写入 s3 存储桶中的 results.json?

我的第一个想法是使用INSERT INTO SELECT ID, COUNT(*) ...orINSERT OVERWRITE但这似乎不受Amazon Athena DDL Statementstdhoppers Blogpost 的支持

  1. 是否有可能CREATE TABLE使用 AWS Athena 处理新数据?
  2. AWS Glue 有什么解决方法吗?
  3. 无论如何有可能用 Athena 的结果触发 lambda 函数?(我知道 S3 Hooks)

覆盖整个 json 文件/表并始终创建一个新的 json 对我来说并不重要,因为我汇总的统计数据非常有限。

我知道 AWS Athena 会自动将结果作为 CSV 写入 S3 存储桶。但是,我喜欢进行简单的聚合并将输出直接写入公共 s3,以便浏览器中的 spa angular 应用程序能够读取它。因此 JSON 格式和特定​​路径对我来说很重要。

0 投票
1 回答
1015 浏览

amazon-web-services - AWS Glue java.lang.OutOfMemoryError:Java 堆空间

我们正在尝试将 AWS Glue 用于我们的 ETL 流程。由于内存不足错误,正在运行 AWS Glue 作业进程被终止。

而且我不确定是否可以在 AWS Glue 中设置 Java 堆大小。

谢谢, 哈里什

0 投票
2 回答
2245 浏览

apache-spark - AWS Glue 在处理 TB 中的数据时抛出错误

我正在使用 AWS 胶水 ETL 作业以镶木地板格式转换 s3 上的 CSV 数据。Snappy 压缩的 parquet 数据存储回 s3。

完整架构:当数据上传到 s3 时,如果 lambda 函数尚未运行,它会触发粘合 ETL 作业。一个作业不断地在 s3 上上传胶水输入数据。Glue 成功处理了 100GB 的数据,但由于输入数据堆积到 0.5 到 1TB,Glue 作业在运行很长时间(例如 10 小时)后抛出错误。

我做了很多工作来解决这个错误,但没有任何线索。尽管我尝试了一些建议的方法,例如-

上述设置无效。如果您能提供任何指导来解决此问题,我将不胜感激。

0 投票
5 回答
5962 浏览

amazon-web-services - AWS Glue 不检测分区并在目录中创建 1000 多个表

我正在使用 AWS Glue 创建元数据表。

AWS Glue Crawler 数据存储路径:s3://bucket-name/

S3中的桶结构就像

为此 aws 爬虫创建 4 个表。

我的问题是为什么 aws 胶水爬虫没有检测到分区?

0 投票
1 回答
7321 浏览

amazon-web-services - 使用胶水数据目录中定义的外部表红移光谱

我在 Glue 数据目录中定义了一个表,我可以使用 Athena 进行查询。由于表中有一些数据我想与其他 Redshift 表一起使用,我可以访问 Glue 数据目录中定义的表吗?

什么是创建外部表查询以引用 Glue 目录中的表定义?

0 投票
0 回答
557 浏览

amazon-web-services - 如何配置 aws 粘合作业以使用粘合数据湖表定义中的列类型?

考虑以下 aws 粘合作业代码:

它打印出类似的东西(注意它price_key不在第二个位置):

my_tabledatalake 中,定义为day_keyas int(第一列)和price_keyas decimal(25,0)(第二列)。

可能是我错了,但我从源代码中发现 aws glue 使用表和数据库来获取数据的 s3 路径,但完全忽略任何类型定义。可能适用于某些数据格式,例如parquet它是正常的,但不适用于csv.

如何配置 aws 胶水以从数据湖表定义中为带有 csv 的动态框架设置模式?

0 投票
2 回答
952 浏览

amazon-s3 - us-west-1 中的 Spectrum 和 us-west-2 中的 Glue 是否可能?

我在us-west-1(NCAL)中使用 Redshift 集群

s3 文件位置在us-west-1(NCAL) 胶水数据目录在us-west-2 (Oregon)

当我尝试查询表格时

我收到以下错误。

表定义确实是在 Glue 目录中创建的,我还可以看到它是在 Redshift 的 svv_external_tables 中定义的。只是我无法查询它。

如何解决这个问题?任何人都可以帮忙吗?

谢谢和问候, 库纳尔·戈什

0 投票
2 回答
3236 浏览

amazon-web-services - 有没有办法在工作完成后运行 aws 胶水爬虫?

例如,我运行 ETL,可能会为目标表添加新字段或列。要检测表更改,应运行爬虫,但它只能手动或计划运行。

作业完成后可以触发爬虫吗?