问题标签 [aws-data-pipeline]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
6053 浏览

amazon-web-services - 调度从 AWS Redshift 到 S3 的数据提取

我正在尝试构建一个从 Redshift 提取数据并将相同数据写入 S3 存储桶的工作。到目前为止,我已经探索了 AWS Glue,但 Glue 无法在 redshift 上运行自定义 sql。我知道我们可以运行卸载命令并且可以直接存储到 S3。我正在寻找一种可以在 AWS 中进行参数化和安排的解决方案。

0 投票
1 回答
981 浏览

amazon-web-services - 使用 AWS 数据管道将 csv 文件从 S3 加载到 RDS Mysql

我是 AWS 新手,尝试使用数据管道“将 S3 数据加载到 RDS mysql 表”模板将数据从 csv 文件加载到 RDS MySQL。但是出现错误“找不到数据库的DriverClass:aurora”。尝试将 JDBC uri 属性指向 s3 中的驱动程序 jar。

谢谢!

0 投票
1 回答
249 浏览

mysql - AWS Data Pipeline 的默认日期时间

我们正在使用数据管道将数据从 s3 推送到 amazon redshift 表。我们正在使用 JSON 推送数据

我最近想在我的 redshift 表中添加 created_at 应该采用当前时间戳。我已经在我的 redshift 表中添加了带有默认值的列到当前时间戳。我没有在这个列的 json 映射文件中定义(原因很明显)。但是管道失败,说明列数和 json 映射不匹配。已尝试阅读多个文档,但没有得到适当的解决方案。谁能帮助我了解如何使用 aws 数据管道将默认当前时间戳从 s3 插入红移表?

0 投票
1 回答
1658 浏览

amazon-web-services - 当 S3 存储桶中的对象大小超过阈值时发出警报

我有提供给我的 S3 存储桶的 AWS 数据管道设置。每次管道生成一个新的提要文件并存储在存储桶中。我们在存储桶中最多保留 30 天的数据。是否可以配置警报,以便在生成的对象大小超过阈值(例如 1G)时通过电子邮件等通知我?我该怎么办?

0 投票
1 回答
151 浏览

java - AWS Datapipeline 不正确的 java 版本

我正在尝试在我的数据管道中执行一个 jar 文件,它以一种方式出错,向我表明安装在我的管道中的 java 版本低于可执行 jar 所需的版本。我试图添加一个命令来更新 java 版本作为我的 shell 命令活动中的第一个命令,但活动出错并显示消息“S3 路径必须以前缀 s3://”开头。那么,如何在管道中将我的 java 版本升级到 1.8 呢?

0 投票
1 回答
2933 浏览

amazon-web-services - 模板资源块中未解决的资源依赖项 [DefaultSchedule]

我正在使用 cloudformation 脚本来创建 AWS Data Pipeline。我已经根据文档创建了脚本,但我面临 1 个错误,即

模板验证错误:模板格式错误:模板的 Resources 块中未解决的资源依赖项 [DefaultSchedule]

这是我的脚本的资源部分:

谁能告诉我剧本是怎么回事?谢谢

0 投票
1 回答
211 浏览

elastic-ip - 将弹性 IP 与计划的 AWS 数据管道关联

任何人都知道是否可以将弹性 IP 与预定数据管道相关联?我已将数据管道配置为每天运行。在数据管道执行期间,我需要访问 Google DB。要访问 Google DB,我应该在 DB 授权设置中添加 IP (CIDR)。但是如果没有数据管道创建的 EC2 实例的已知公共 IP,我无法对其进行配置。

因此,我需要有可能设置一次弹性 IP 以用于 EC2 实例,该实例在每次调度程序运行数据管道时由数据管道自动创建。

0 投票
1 回答
412 浏览

database - AWS 将数据从一个数据库复制到另一个

所以事情是这样的,我们(在我工作的公司)有一个生产数据库(MySQL),我们想为 BI/Analytics 创建一个新的数据库(PostgreSQL)。

整个基础设施都在 AWS 上,我们必须将数据从生产环境复制到分析数据库,我想使用 AWS Glue,但它没有复制真实数据,它只是获取(甚至创建)生产环境数据库表模式。然后我发现了数据管道(也在 AWS 中),但我不知道这是我必须使用的还是我弄乱了 AWS Glue 上的爬虫配置。

我应该使用这两种产品中的哪一种来完成这项任务以及如何使用?

0 投票
0 回答
95 浏览

amazon-emr - 如何使用 aws 控制台在 aws 数据管道中运行多个步骤

我有一个在 EMR 上安排我的 spark 作业的用例。每次我们都会旋转一个新的集群并运行 Spark 作业。我浏览了 aws 提供的文档,但这些文档不够广泛,无法清楚地说明如何操作。如果有人知道,请与分步指南分享解决方案。

0 投票
1 回答
1413 浏览

amazon-web-services - 创建 EBS 卷并将其附加到 EC2Resource i AWS Data Pipeline 的权限

我需要比 AWS 数据管道中 EC2Resources 可用的更多本地磁盘。最简单的解决方案似乎是创建和附加 EBS 卷。

我已将 EC2:CreateVolume og EC2:AttachVolume 策略添加到 DataPipelineDefaultRole 和 DataPipelineDefaultResourceRole。

我还尝试为在 shell 中具有相同权限的 IAM 角色设置 AWS_ACCESS_KEY_ID 和 AWS_SECRET_ACCESS_KEY,但可惜没有运气。

是否需要其他一些权限,是没有使用它说它使用的角色,还是根本不可能?

数据管道 ShellCommandActivity 有一个脚本 uri 指向执行此命令的 shell 脚本: aws ec2 create-volume --availability-zone eu-west-1b --size 100 --volume-type gp2 --region eu-west -1 --tag-specifications 'ResourceType=volume,Tags=[{Key= purpose,Value=unzip_file}]'

我得到的错误是:调用 CreateVolume 操作时发生错误(UnauthorizedOperation):您无权执行此操作。