问题标签 [aws-glue]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
674 浏览

aws-lambda - 从 Amazon sqs 读取数据并以 Parquet 格式写入 s3

我们有一个用例,其中来自不同用户的消息数据被发送到 SQS,作为一个数据团队,我们希望订阅该队列并将数据按时间分区放入 S3,以便我们可以在他们。

使用这些消息并将它们写入 S3 的最佳方式是什么?

我想到的是使用 AWS lambda 将这些消息放入 Firehose,然后使用 Firehose 作为缓冲区,一旦数据在特定时间段(比如说一个小时)内可用,使用 Firehose 将其写入 S3拼花格式?

还有其他解决方案吗?也许使用 AWS Glue 或 Data Pipeline?

0 投票
3 回答
7076 浏览

mysql - Overwrite MySQL tables with AWS Glue

I have a lambda process which occasionally polls an API for recent data. This data has unique keys, and I'd like to use Glue to update the table in MySQL. Is there an option to overwrite data using this key? (Similar to Spark's mode=overwrite). If not - might I be able to truncate the table in Glue before inserting all new data?

Thanks

0 投票
2 回答
832 浏览

json - PostgreSQL RDS 中 JSONB 列的 AWS Glue 爬虫

我创建了一个爬虫,它查看带有 JSONB 列的 PostgreSQL 9.6 RDS 表,但爬虫将列类型标识为“字符串”。然后,当我尝试创建一个将 S3 上的 JSON 文件中的数据加载到 RDS 表中的作业时,我收到一个错误。

如何将 JSON 文件源映射到 JSONB 目标列?

0 投票
2 回答
1942 浏览

aws-lambda - 使用 AWS Glue 调用 Lambda 函数

我试图在 AWS Glue 的工作中使用 boto3 来调用 Lambda 函数但没有结果。

我上传了一个包含库的 zip:

就像 AWS 的例子一样

并且没有拉链。

错误是“无法加载数据:端点”。

我试图在没有 zip 的情况下调用,但这会导致超时异常。

有人能帮我吗 ?

0 投票
1 回答
1336 浏览

amazon-web-services - 我可以在 AWS Glue 中运行 R 脚本吗?

是否可以从 AWS Glue 作业调用 R 脚本?我还需要将参数传递给它。

0 投票
0 回答
814 浏览

amazon-s3 - 如何在 AWS Glue 中处理压缩文件(tar 文件)

我在 amazon s3 中有一个名为“myarchive_1.tar.gz”的 tar 文件,我想通过 AWS Glue 在 amazon s3 中提取它。

这是我在 AWS Glue 中运行的示例代码。

但是,每当我在 aws 胶水中运行它时,都会出现以下错误

请帮我解决这个问题。

提前致谢,

瑜伽士。

0 投票
8 回答
14208 浏览

amazon-s3 - 我们可以使用 AWS Glue 将文件从一个 S3 文件夹复制到另一个 S3 文件夹吗?

我需要将压缩文件从一个 AWS S3 文件夹复制到另一个文件夹,并希望将其作为计划的 AWS Glue 作业。我找不到这样一个简单任务的例子。如果你知道答案,请帮忙。答案可能在 AWS Lambda 或其他 AWS 工具中。

非常感谢!

0 投票
3 回答
2376 浏览

performance - 如何提高 AWS Glue 的性能?

我在 AWS 上有一个简单的工作,需要超过 25 分钟。我将 DPU 的数量从 10 更改为 100(允许的最大值),该作业仍然需要 13 分钟。

关于提高性能的任何其他建议?

0 投票
2 回答
2761 浏览

apache-spark - AWS Glue 中的简单 ETL 作业显示“文件已存在”

我们正在为一个大数据项目评估 AWS Glue,其中包含一些 ETL。我们添加了一个爬虫,它可以正确地从 S3 中获取一个 CSV 文件。最初,我们只是想将该 CSV 转换为 JSON,然后将文件放到另一个 S3 位置(相同的存储桶,不同的路径)。

我们使用了 AWS 提供的脚本(这里没有自定义脚本)。并且只是映射了所有的列。

目标文件夹为空(刚刚创建了作业),但作业失败并显示“文件已存在”: 此处为快照。在开始工作之前 ,我们假装删除输出的 S3 位置是空的。然而,在出现错误后,我们确实看到了两个文件,但它们似乎是部分文件: 快照

关于可能发生的事情有什么想法吗?

这是完整的堆栈:

0 投票
3 回答
6559 浏览

amazon-s3 - 让 AWS Glue 写入另一个 AWS 账户中的 S3 存储桶

我需要让 AWS Glue(帐户:PROD)写入另一个帐户(帐户:DEV)上的 S3 存储桶

根据http://docs.aws.amazon.com/glue/latest/dg/access-control-overview.html

基于资源的策略

Amazon S3 等其他服务也支持基于资源的权限策略。例如,您可以将策略附加到 S3 存储桶以管理对该存储桶的访问权限。AWS Glue 不支持基于资源的策略。

...这意味着我不能做arn:aws:s3::DEV-Account:S3-Bucket/*

我尝试Trusted entity使用 PROD 在 DEV 帐户上创建一个并附加一个策略集以访问 DEV 帐户上的 s3 存储桶。

我该怎么做?