问题标签 [amazon-data-pipeline]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
523 浏览

amazon-web-services - Amazon Data Pipeline:ShellCommandActivity 何时启动 On Fail 操作?

AWS Pipeline 如何确定 ShellCommandActivity 是否失败以及何时启动相应的 on Fail 操作?我可以在脚本中编写代码来检查操作是否正确完成,然后“告诉”AWS Pipeline Activity 是否成功?

0 投票
1 回答
1117 浏览

hadoop - EmrActivity 的多个输入

根据 Data Pipeline 文档,EMRActivity Step 命令使用与常规 EMR 作业不同的格式。

这是一个简化的示例:

假设我需要从多个存储桶中提取数据,如何将这些多个输入传递给一个单步命令?

在常规的 EMR 作业设置中,我只需用逗号分隔输入路径,但这似乎不适用于 EmrActivity。

我对 EmrActivity 的解决方案非常感兴趣,而不是设置复制活动以将我的数据带到临时的唯一位置。

谢谢。

0 投票
2 回答
689 浏览

amazon-web-services - 在 AWS Datapipeline EC2 资源上安装软件

我需要在 ShellCommandActivity 中使用一个名为 s3cmd 的程序。我怎样才能做到这一点?我是否必须创建一个新的 EC2 映像(然后安装管道等所需的一切)并在管道中指定它,或者是否有一个现有的管道 EC2 映像我可以添加一些东西?我还尝试通过运行将其安装在脚本中sudo su yum -y install s3cmd

失败:“sudo:抱歉,你必须有一个 tty 才能运行 sudo”

0 投票
1 回答
907 浏览

amazon-web-services - AWS Pipeline:将本地文件暂存到 S3 失败。我们计算的请求签名与您提供的签名不匹配

这是我的设置:我正在尝试使用 DataPipeline 将文件从外部 Web 服务器复制到 S3 存储桶。为此,我使用了 ShellCommandActivity,它使用脚本将文件下载到管道中指定的输出存储桶。在脚本中,我使用环境变量 ${OUTPUT1_STAGING_DIR} 来寻址存储桶。当然,我在我的管道中将“分期”变成了真实。脚本完成后,Activity 的状态变为“FAILED”并出现以下错误:

将本地文件暂存到 S3 失败。我们计算的请求签名与您提供的签名不匹配。检查您的密钥和签名方法

当我查看标准输出文件时,我可以看到我的脚本已成功完成,只有暂存到存储桶没有工作。

我认为这可能是存储桶的权限问题,但我不知道我必须更改哪些内容!

我遇到了一些讨论,人们收到此错误是因为存储桶的路径配置错误,所以我在 Pipeline Datanode 目录路径中是这样做的:

s3://testBucket

这个对吗?

我会很感激这里的任何帮助!

0 投票
1 回答
245 浏览

bash - Aws Datapipeline:在 ShellCommandActivity 中列出输出存储桶的内容

如何在 Shell 脚本中列出我的输出存储桶中包含的文件?ls ${OUTPUT1_STAGING_DIR} 不起作用,因为我收到消息说没有此名称的文件或目录。我确信有一种简单的方法可以做到这一点,但我似乎找不到解决方案。

0 投票
1 回答
797 浏览

amazon-web-services - 在 Datapipeline 中使用自定义 AMI(带有 s3cmd)

如何在管道中使用的 AMI 上安装 s3cmd?这应该是一件相当基本的事情,但我似乎无法完成:这是我尝试过的:

  • 在没有 Image-id 选项的情况下启动了一个管道 => 一切正常
  • 导航到 EC2 并创建正在运行的实例的映像,以确保在我的自定义 AMI 上安装在管道中运行所需的所有内容
  • 作为实例手动启动此 AMI
  • SSH 进入机器并安装 S3cmd
  • 创建机器的另一个映像,这次安装了 s3cmd
  • 关闭实例
  • 再次启动管道,这次使用新创建的 AMI 作为 Image-id 并安装了 S3cmd

现在资源开始“运行”,但我的活动(ShellCommandActivity)卡在 WAITING_FOR_RUNNER 状态,脚本永远不会被执行。

我必须做什么才能让管道使用自定义图像运行?还是有更简单的方法在管道中使用 s3cmd?

谢谢!

0 投票
2 回答
1090 浏览

amazon-web-services - AWS 将 S3 复制到 RDS

我正在尝试使用 Amazon 数据管道从 S3(.csv 文件)复制到 RDS(MySQL),我的错误是:

复制记录出错
原因:com.mysql.jdbc.exceptions.jdbc4.CommunicationsException:通信链路故障

最后一个成功发送到服务器的数据包是 0 毫秒前。驱动程序没有收到来自服务器的任何数据包。
原因:通信链路故障

最后一个成功发送到服务器的数据包是 0 毫秒前。驱动程序没有收到来自服务器的任何数据包。
原因:连接超时

注意:我用相同的连接字符串尝试了 RDS TO S3,它成功了!但 S3 到 RDS 不知道为什么。

0 投票
1 回答
1513 浏览

amazon-web-services - 如何使用 AWS Data Pipeline 将文件从一个 S3 存储桶/目录传输到另一个

我想使用 AWS 数据管道将文件(即复制到目标目录并从源目录中删除)从一个 S3 存储桶目录传输到另一个。

我尝试使用 ShellCommandActivity 并制作了一个脚本,可以将文件/文件从一个 S3 存储桶/目录移动到另一个。但结果是它只是将它复制到目标 S3 存储桶/目录中,并没有删除 S3 源目录中的文件。

提前致谢!

0 投票
1 回答
306 浏览

validation - AWSDatapipeline 备份/恢复和验证

我是 AWS 数据管道的新手,我需要将 dynamoDb 备份到 S3 存储桶,然后从该备份恢复到某个恢复的 dyanmoDb 表,然后验证记录,这意味着检查 S3 备份和恢复的 dynamoDb 表中的记录数。

有人可以让我知道该怎么做吗?我知道数据管道中已经有模板可以将记录从 Dynamo 复制到 S3 和 S3 到 dynamo。

但我想从一个有经验的人那里,在同一数据管道中进行所有备份、恢复和验证的方法,主要是恢复和验证步骤。

任何帮助都是有价值的

0 投票
1 回答
472 浏览

emr - 如何停止在 Amazon Data Pipeline 中安装 hive/pig?

我不需要 Hive 或 Pig,Amazon Data Pipeline 默认将它们安装在它启动的任何 EMR 集群上。这使得测试花费的时间比它应该的要长。关于如何禁用安装的任何想法?