问题标签 [aws-glue]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

2950 问题

0 投票

2 回答

1598 浏览

python - AWS Glue 通过 API 创建触发器

我有一张表，其中包含各种工作的几个时间表。

我想通过 AWS Glue API处理记录并创建触发器。

http://docs.aws.amazon.com/glue/latest/dg/aws-glue-api.html

上面的链接显示了适用于 AWS Glue 的文档。

有没有人可以提供有关如何使用 API 的代码片段？我在网上搜索了足够长的时间，但没有找到任何提供代码片段的文档！

我正在寻找以下 API CALL 的代码片段。 CreateTrigger 动作（Python：create_trigger）

任何帮助都会很棒。

2017-12-26T16:01:47.363

0 投票

5 回答

3791 浏览

python - AWS Glue 截断红移表

我创建了一个将数据从 S3（csv 文件）复制到 Redshift 的 Glue 作业。它工作并填充所需的表。

但是，我需要在此过程中清除表，因为在该过程完成后我留下了重复的记录。

我正在寻找一种方法来将此清除添加到 Glue 过程中。任何意见，将不胜感激。

谢谢。

python amazon-web-services pyspark amazon-redshift aws-glue

2017-12-29T17:21:42.413

0 投票

2 回答

2684 浏览

json - AWS Athena 将 result.json 输出到 s3 - CREATE TABLE AS / INSERT INTO SELECT？

是否有可能将 AWS Athena 查询的结果写入 s3 存储桶中的 results.json？

我的第一个想法是使用INSERT INTO SELECT ID, COUNT(*) ...orINSERT OVERWRITE但这似乎不受Amazon Athena DDL Statements和tdhoppers Blogpost 的支持

是否有可能CREATE TABLE使用 AWS Athena 处理新数据？
AWS Glue 有什么解决方法吗？
无论如何有可能用 Athena 的结果触发 lambda 函数？（我知道 S3 Hooks）

覆盖整个 json 文件/表并始终创建一个新的 json 对我来说并不重要，因为我汇总的统计数据非常有限。

我知道 AWS Athena 会自动将结果作为 CSV 写入 S3 存储桶。但是，我喜欢进行简单的聚合并将输出直接写入公共 s3，以便浏览器中的 spa angular 应用程序能够读取它。因此 JSON 格式和特定路径对我来说很重要。

json amazon-web-services amazon-athena aws-glue

2018-01-05T19:02:37.747

0 投票

1 回答

1015 浏览

amazon-web-services - AWS Glue java.lang.OutOfMemoryError：Java 堆空间

我们正在尝试将 AWS Glue 用于我们的 ETL 流程。由于内存不足错误，正在运行 AWS Glue 作业进程被终止。

而且我不确定是否可以在 AWS Glue 中设置 Java 堆大小。

谢谢，哈里什

amazon-web-services etl aws-glue

2018-01-08T22:16:44.763

0 投票

2 回答

2245 浏览

apache-spark - AWS Glue 在处理 TB 中的数据时抛出错误

我正在使用 AWS 胶水 ETL 作业以镶木地板格式转换 s3 上的 CSV 数据。Snappy 压缩的 parquet 数据存储回 s3。

完整架构：当数据上传到 s3 时，如果 lambda 函数尚未运行，它会触发粘合 ETL 作业。一个作业不断地在 s3 上上传胶水输入数据。Glue 成功处理了 100GB 的数据，但由于输入数据堆积到 0.5 到 1TB，Glue 作业在运行很长时间（例如 10 小时）后抛出错误。

我做了很多工作来解决这个错误，但没有任何线索。尽管我尝试了一些建议的方法，例如-

上述设置无效。如果您能提供任何指导来解决此问题，我将不胜感激。

apache-spark amazon-s3 pyspark spark-dataframe aws-glue

2018-01-09T09:25:15.193

0 投票

5 回答

5962 浏览

amazon-web-services - AWS Glue 不检测分区并在目录中创建 1000 多个表

我正在使用 AWS Glue 创建元数据表。

AWS Glue Crawler 数据存储路径：s3://bucket-name/

S3中的桶结构就像

为此 aws 爬虫创建 4 个表。

我的问题是为什么 aws 胶水爬虫没有检测到分区？

amazon-web-services amazon-s3 aws-glue

2018-01-09T10:27:06.260

0 投票

1 回答

7321 浏览

amazon-web-services - 使用胶水数据目录中定义的外部表红移光谱

我在 Glue 数据目录中定义了一个表，我可以使用 Athena 进行查询。由于表中有一些数据我想与其他 Redshift 表一起使用，我可以访问 Glue 数据目录中定义的表吗？

什么是创建外部表查询以引用 Glue 目录中的表定义？

amazon-web-services amazon-redshift amazon-athena aws-glue amazon-redshift-spectrum

2018-01-10T06:23:30.303

0 投票

0 回答

557 浏览

amazon-web-services - 如何配置 aws 粘合作业以使用粘合数据湖表定义中的列类型？

考虑以下 aws 粘合作业代码：

它打印出类似的东西（注意它price_key不在第二个位置）：

在my_tabledatalake 中，定义为day_keyas int（第一列）和price_keyas decimal(25,0)（第二列）。

可能是我错了，但我从源代码中发现 aws glue 使用表和数据库来获取数据的 s3 路径，但完全忽略任何类型定义。可能适用于某些数据格式，例如parquet它是正常的，但不适用于csv.

如何配置 aws 胶水以从数据湖表定义中为带有 csv 的动态框架设置模式？

amazon-web-services apache-spark amazon-s3 aws-glue

2018-01-10T14:20:20.897

0 投票

2 回答

952 浏览

amazon-s3 - us-west-1 中的 Spectrum 和 us-west-2 中的 Glue 是否可能？

我在us-west-1(NCAL)中使用 Redshift 集群

s3 文件位置在us-west-1(NCAL) 胶水数据目录在us-west-2 (Oregon)

当我尝试查询表格时

我收到以下错误。

表定义确实是在 Glue 目录中创建的，我还可以看到它是在 Redshift 的 svv_external_tables 中定义的。只是我无法查询它。

如何解决这个问题？任何人都可以帮忙吗？

谢谢和问候，库纳尔·戈什

amazon-s3 amazon-redshift aws-glue amazon-redshift-spectrum

2018-01-10T23:00:12.140

0 投票

2 回答

3236 浏览

amazon-web-services - 有没有办法在工作完成后运行 aws 胶水爬虫？

例如，我运行 ETL，可能会为目标表添加新字段或列。要检测表更改，应运行爬虫，但它只能手动或计划运行。

作业完成后可以触发爬虫吗？

amazon-web-services aws-glue

2018-01-11T05:46:03.043

1 2 3 4 5 6 7 8 9 10

问题标签 [aws-glue]

Reference