问题标签 [aws-data-pipeline]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
199 浏览

amazon-web-services - EC2 资源的 AWS 数据管道名称标签选项

我在 EC2 资源示例 json 中运行 shell 活动以创建 EC2 资源。

上面的 json 正在使用数据管道创建 EC2 资源,但是当我在 AWS 控制台中打开 EC2 资源时,我想为上述资源命名,它将显示 EC2 资源名称和其他属性,目前它显示为空白。

有关更多详细信息,请参见附图 在此处输入图像描述

0 投票
1 回答
581 浏览

amazon-web-services - 从 S3 到 RDS 的数据迁移

我正在处理一个需求,我正在将 csv 文件从 prem 服务器上多部分上传到 S3 Bucket。

为了使用 AWS Lambda 实现这一点,我创建了一个预签名的 url,并使用这个 url 上传 csv 文件。现在,一旦我在 AWS S3 中有文件,我希望将它移动到 AWS RDS Oracle DB。最初我打算为此使用 AWS Lambda。

因此,一旦我在 S3 中拥有该文件,它就会触发 lambda(s3 事件),并且 lambda 会将这个文件推送到 RDS。但是这个问题在于文件大小(600 MB)。

我正在寻找其他方式,只要有文件上传到 S3,它就会触发任何 AWS 服务,并且该服务会将这个 csv 文件推送到 RDS。我已经通过 AWS DMS/Data Pipeline,但无法找到任何方法来自动执行此迁移

我需要在每次 s3 上传时自动执行此迁移,这也具有成本效益。

0 投票
1 回答
119 浏览

amazon-web-services - AWS Data Pipeline 创建错误代码:Throttling-- Rate Exceeded

错误图像 1 -> https://i.stack.imgur.com/16YSg.png

错误图像 2 -> https://i.stack.imgur.com/4bZkU.png

0 投票
1 回答
649 浏览

amazon-web-services - 将数据从 S3 移动到 Amazon Aurora Postgres

我在 S3 的不同存储桶中存在多个文件。我需要每天按计划将这些文件移动到 Amazon Aurora PostgreSQL。每天我都会得到一个新文件,并根据数据进行插入或更新。我使用 Glue 进行插入,但使用 upsert Glue 似乎不是正确的选择。有没有更好的方法来处理这个?我看到从 S3 到 RDS 的加载命令将解决该问题,但没有获得足够的详细信息。请问有什么建议吗?

0 投票
0 回答
82 浏览

amazon-web-services - 如何将数据从 redshift 同步到 dynamodb

是否有用于创建数据管道以将数据从 redshift 同步到 Dynamo-DB 的云形成模板?

谢谢,维诺德。

0 投票
1 回答
514 浏览

amazon-web-services - 如何将 AWS DynamoDB 表导出到 S3 存储桶?

我有一个 DynamoDB 表,它有 150 万条记录/2GB。如何将其导出到 S3?

执行此操作的 AWS 数据管道方法适用于一个小表。但是我在将 150 万条记录表导出到我的 S3 时遇到了问题。

在我最初的试验中,管道作业花了 1 个小时,但失败了

java.lang.OutOfMemoryError:超出 GC 开销限制

我通过以下链接向 EMR 集群内的实例提供了一个 hadoop-env 配置对象,从而增加了 namenode 堆大小

增加堆大小后,我的下一个作业运行尝试在 1 小时后失败,并出现另一个错误,如随附的屏幕截图所示。我不知道该怎么做才能完全解决这个问题。

在此处输入图像描述 在此处输入图像描述

同时检查 EMR 集群中实例的 AWS Cloudwatch 图。核心节点持续保持 100% 的 CPU 使用率。

EMR 集群实例类型(主节点和核心节点)为 m3.2xlarge。

0 投票
2 回答
283 浏览

amazon-web-services - AWS 数据管道无法通过无服务器 yaml 模板创建

我正在为 dynamo db 导出到 s3 创建数据管道。为无服务器 yaml 提供的模板不适用于“PAY_PER_REQUEST”计费模式

使用 aws 控制台创建了一个 itr 工作正常,导出了它的定义,尝试在无服务器中使用相同的定义创建,但它给了我以下错误

谁可以帮我这个事。使用控制台创建的管道与表备份活动中的相同步骤值完美配合。

管道模板粘贴在下面

0 投票
1 回答
209 浏览

amazon-web-services - 为 AWS S3 设置跨账户访问

我有两个 AWS 账户,比如 A(用于 AWS 服务)和 B(用于 s3)。我想访问账户 A 的数据管道服务中 B 的 s3 存储桶,以管理账户 B 内的数据传输。我有账户 B 的访问密钥对。如何使用访问密钥对设置 S3 对数据管道服务的访问?

0 投票
1 回答
244 浏览

amazon-web-services - 如何在 aws 数据管道的 shell 脚本中读取 ssm 参数?

我正在 aws 中设置数据管道。并计划使用“开始使用 ShellCommandActivity”模板来运行 shell 脚本。如何将存储在 ssm 参数中的凭据作为参数传递给该脚本。

0 投票
1 回答
271 浏览

amazon-redshift - 如何创建 Amazon Event Bus 规则来处理 AWS Data Pipeline 事件?

  1. 我们有一个 AWS 数据管道,可以将数据从 S3 复制到 Redshift ( RedshiftCopyActivity)。
  2. 我们希望在复制完成后调用 Lambda 函数。

到目前为止我的理解是:

  1. Amazon Event Bus 是处理事件和调用函数的推荐方式
  2. Data Pipeline 不会直接引发事件,但会触发 CloudTrail API 调用

CloudTrail + Event Bridge 页面中有一行:“如果要自定义事件模式,请选择 Edit,进行更改,然后选择 Save。”

是否有关于如何编写此规则以匹配特定数据管道 IDRedshiftCopyActivity和“已完成”状态的任何详细信息?

或者如果有更简单的方法来实现这一点,我欢迎它,谢谢。