问题标签 [amazon-data-pipeline]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
2595 浏览

amazon-s3 - AWS:通过使用 amazon-data-pipeline 将数据从 S3 传输到 Redshift 来实现除 COPY 之外的其他功能

我正在尝试使用 Amazon-Data-Pipeline 工具将数据从 Amazon S3-Cloud 传输到 Amazon-Redshift。

是否可以在传输数据时使用例如 SQL 语句更改数据,以便仅将 SQL 语句的结果作为 Redshift 的输入?

我只发现复制命令如下:

资料来源:https ://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-get-started-copy-data-cli.html

0 投票
1 回答
513 浏览

amazon-swf - 用于 Pig 脚本的 Amazon SWF 与 Data Pipeline

您好,我想在 Amazon EMR 上运行一个每日数据导入猪脚本。我应该使用简单工作流还是数据管道来安排和监控作业?我尝试通过数据管道,但它似乎需要一个输出。如果我正在运行自定义猪脚本,这个输出会进入什么?他们是否希望您为数据导入任务/作业使用默认的预制猪脚本?

在我的例子中,我有一个猪脚本,它从 S3 输入中获取并执行一些数据转换,然后推送到 dynamodb。试图在数据管道中安排这个猪脚本,我看到有一个猪活动类型和一个 s3 到 dynamodb 模板,但我不知道如何自定义/修改它,以便它运行我的猪脚本并在它去之前转换数据发电机分贝。这个过程中s3和dynamodb映射设置在哪里?由于 pig 脚本从 s3 导入并单独导出到 dynamodb,这是否是多余的?

0 投票
2 回答
393 浏览

amazon-web-services - 我所有的 AWS 数据管道都已停止工作并出现验证错误

我每周使用 AWS 数据管道将 dynamodb 表自动备份到 S3。
自两周前以来,我所有的数据管道都已停止工作。

经过一番调查,我发现 EMR 因“验证错误”和“因错误而终止,没有为用户帐户找到活动密钥”而失败。结果所有作业都超时。

任何想法这意味着什么?
我排除了对允许与 EMR 一起使用的即时类型列表的更改。
此外,我尝试阅读 EMR 日志,但似乎没有达到创建日志的目的(或者我在错误的地方寻找它们)。

0 投票
1 回答
245 浏览

amazon-data-pipeline - hive 分布式查询以连接来自 on-primise hadoop 集群和 amazon s3 hadoop 集群的数据

我在 on-primise hadoop 集群(在我的本地网络中)中有一定数量的数据,我在 Amazon 云 S3 hadoop 集群中有一定数量的数据。在这两个地方,我的数据都驻留在配置单元表中。

我想从我的本地 hadoop 集群中触发一个 hive 查询,这个查询应该加入来自我的本地集群 hive 表的数据和来自 amazon s3 hadoop 集群的 hive 表数据。它应该连接来自两个地方的数据并给出结果

到我的本地集群环境,因为我正在从本地配置单元外壳发出查询。

这个问题可以通过 Amazon Data Pipeline 处理吗?如果是,请指导我。

谢谢,-Suyodha

0 投票
2 回答
1699 浏览

amazon-s3 - 从 RDS 到 S3 副本的模板上的数据管道错误

我正在使用模板进行复制。在“S3”数据节点中,我配置了自定义格式,因为我的列数据包含“逗号”。

我使用的自定义数据格式具有以下属性

列分隔符 " 是 PIPE ("|") 并且记录分隔符是 "\n"

当我运行管道数据时不会加载到 S3 并给我以下错误

复制记录时出错\n原因:java.lang.reflect.InvocationTargetException\n原因:null\n原因:引号字符必须以记录格式定义

任何人都遇到过这个问题。

0 投票
3 回答
3324 浏览

amazon-web-services - 从管道 AWS 中删除 s3 文件

我想询问我正在尝试使用 AWS 中的数据管道完成的处理任务,但我无法让它工作。

基本上,我有代表 2 个 MySQL 数据库的 2 个数据节点,应该定期从其中提取数据并放置在 S3 存储桶中。此复制活动运行良好,每天选择已添加的每一行,假设今天 - 1 天。

但是,包含作为 CSV 收集的数据的存储桶应该成为 EMR 活动的输入,该活动将处理这些文件并聚合信息。问题是我不知道如何删除或移动已处理的文件到不同的存储桶,所以我不必每天处理所有文件。

为了澄清,我正在寻找一种方法来从管道中移动或删除 S3 存储桶中已处理的文件。我可以这样做吗?有没有其他方法我只能根据命名约定或其他方式处理 EMR 活动中的某些文件?

0 投票
1 回答
943 浏览

amazon-web-services - 使用标准角色部署 AWS 数据管道

尝试简单地部署以前有效的数据管道定义。这次我更改了角色以与另一个 AWS(生产与暂存)帐户保持一致。

当我通过 AWS CLI 部署时,我收到以下消息:

这是 DataPipelineDefaultRole 的定义:

我还注意到,当我尝试重新创建“DataPipelineDefaultRole”时,有时“Instance Profile ARN(s)”为空白。最后,我能够重新创建角色 - 通过“hello world 数据管道模板”设置和/或手动步骤的组合。(存在实例 ARN)

即使角色设置为:

这没用。

我究竟做错了什么?

0 投票
3 回答
14756 浏览

postgresql - 如何将数据从 AWS Postgres RDS 传输到 S3(然后是 Redshift)?

我正在使用 AWS 数据管道服务将数据从RDS MySql数据库传输到s3,然后再传输到Redshift,效果很好。

但是,我也有一个RDS Postres实例中的数据,我想以相同的方式进行管道传输,但我很难设置 jdbc 连接。如果这不受支持,是否有解决方法?

0 投票
1 回答
129 浏览

amazon-ec2 - 在 Pipeline 的 EMR 集群中标记 EC2 机器(S3->DynamoDB 示例中的 ImportCluster)

我正在尝试运行 S3->DynamoDB 示例,但在运行为该MyImportJob活动创建的 EMR 集群时遇到了一些问题。

我们配置了我们的 IAM 账户,这样每个用户都可以创建带有特定“team_id”标签(属于他的团队)的 EC2 机器。这有助于我们控制资源、防止错误和监控使用情况。

当 Pipeline 尝试启动 EMR 集群时,它(可能)在没有标签的情况下执行它,因此它失败并显示Terminated with errors: User account is not authorized to call EC2. 我试图在 EMRCluster 资源中找到一个配置,但找不到任何可以帮助我设置它的东西。我很确定它会因为标签政策而失败。

知道如何克服这个问题吗?
如果为此创建 CloudFormation 模板是否有帮助?我在那里有更多的控制权吗?(无论如何,我将创建管道作为应用程序模板的一部分,只是想体验一下之前的产品)。

谢谢!

0 投票
1 回答
234 浏览

amazon-dynamodb - 在 ShellCommandActivity 上从命令行运行 AWS 命令

我最初的问题是我想在运行管道之前增加我的 DynamoDB 写入吞吐量,然后在我完成上传时减少它(每天最多执行一次,所以我对减少的限制很好)。

我发现这样做的唯一方法是通过一个 shell 脚本,该脚本将发出 API 命令来改变吞吐量。当它是管道为我创建的资源时,它如何与我的 AMI access_key 和 secret_key 一起使用?(我无法登录以设置~/.aws/config文件,也不想为此创建 AMI)。

我应该用 bash 编写脚本吗?例如,我可以使用 ruby​​/python AWS SDK 包吗?(我更喜欢后者..)如何将我的凭据传递给脚本?我是否有运行时变量(如@startedDate),我可以使用我的密钥和秘密将其作为参数传递给活动?我是否有任何其他方式来使用命令行工具或 SDK 包进行身份验证?

如果有其他方法可以解决我原来的问题 - 请告诉我。我只能找到ShellActivity解决方案,因为我在文档/论坛中找不到任何其他内容。

谢谢!