问题标签 [amazon-data-pipeline]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1345 浏览

bash - 带有 while 循环的数据管道脚本卡在 WAITING_FOR_DEPENDENCIES 状态

我正在尝试在运行 Amazon Linux 64 位的 EC2 实例上运行以下脚本,并安装了一些额外的东西(例如 lftp)作为 ShellCommandActivity 中 Amazon 数据管道的一部分。

如果我删除带有它的行,while它将运行到完成(ShellCommandActivity 达到 FINISHED 状态)但如果它在那里,则脚本“失败”,即 ShellCommandActivity 最终处于 WAITING_ON_DEPENDENCIES 状态。

不幸的是,在这种情况下,Data Pipeline 服务没有写出任何日志,所以我不确定我为什么会遇到问题,如果我创建一个具有相同图像和实例类型的实例并且我能够成功运行该命令通过登录到盒子自己运行命令。

从代码中可能已经很明显,所有这些的目标是从 sftp 服务器中删除 S3 存储桶中的文件。

笔记:

  • INPUT1_STAGING_DIR是一个 S3 存储桶,该部分由数据管道管理,我已经确认这部分工作正常
  • 脚本实际上都是在一行上执行的;这些行被分解以使其更易于运行,但是在部署时,所有 4 行都连接在一起,每行之间只有一个空格,因此&&在每行的末尾和;第 3 行中的所有行。

为方便起见,这是格式更好的代码:

0 投票
1 回答
413 浏览

ruby - 需要从 Amazon Web 服务数据管道执行一个 ruby​​ 文件

我的应用程序中有一个 ruby​​ 文件,我需要从 amazon Web 服务数据管道调用并执行一个 ruby​​ 文件作为后台作业

我在下面给出了json文件

样本.sh

样本.rb

我已经给出了 sample.sh 文件的正确路径。我仍然不会让 sample.rb 调用或不调用。任何人都告诉我一步一步地遵循它,因为我是亚马逊网络服务数据管道的新手。

帮我解决它。

0 投票
1 回答
3533 浏览

ruby - 需要在 aws datapipeline 中运行 bash 脚本

我需要在 aws 数据管道中使用 bash 脚本调用 ruby​​ 文件

我尝试使用带有命令参数的 shell 命令活动

json文件

样本.rb

我不知道如何给出 s3 路径(“命令”:“bash -lc 'cd ~/pipeline_test(bucket_name)/inputs/ && ruby​​ sample.rb'”,)

我得到脚本退出状态 1

帮我解决它。

0 投票
4 回答
12527 浏览

amazon-s3 - 从 S3 到 DynamoDB 的 AWS 数据管道 CSV 数据

我正在尝试使用 AWS 管道将 CSV 数据从 S3 存储桶传输到 DynamoDB,以下是我的管道脚本,它无法正常工作,

CSV 文件结构

DynamoDb : N_Table,名称为哈希值

}

在执行管道的四个步骤中,有两个正在完成,但没有完全执行

0 投票
2 回答
2489 浏览

amazon - Data Pipeline 成功和失败的 Amazon SNS 配置

我正在使用亚马逊data pipeline来自动化一些shell活动。每天运行一次。所以,我正在配置亚马逊SNS,让我知道shell活动的最后一次运行是成功还是失败。如果,失败,然后通过电子邮件向我发送失败的原因。

因此,我能够配置SNS用于向我发送邮件。但是,我应该如何配置消息部分,SNS以便在失败的情况下,它会向我发送确切的错误?另外,如果成功,请向我发送 status SUCCESS

0 投票
1 回答
1650 浏览

amazon-web-services - AWS 数据管道作业失败,但没有错误消息或错误代码

我尝试运行数据管道作业,但 EmrActivity 步骤达到了 FAILED 状态,但没有错误代码或错误消息:

名称:@EMR 集群执行工作_2013-09-03T16:15:00 查看实例字段说明:最近尝试次数:3,剩余尝试次数:0 选择此实例的尝试次数:

状态:失败错误代码:错误消息:

知道为什么吗?我在哪里可以找到有关潜在问题的更多信息?

工作很简单:启动 EMR 集群并运行一个 pig 脚本(其中 xxx 是我的存储桶名称):

这个配置看起来好吗?我在 s3://xxx/amazonlogs 中看不到任何内容

0 投票
2 回答
1700 浏览

hadoop - 使用 aws 自动化 Hive 活动

我想每天自动化我的配置单元脚本,为了做到这一点,我有一个选项是数据管道。但问题是我正在将数据从 dynamo-db 导出到 s3,并且我正在使用配置单元脚本来操作这些数据。我在 hive-script 中给出这个输入和输出,这是问题开始的地方,因为 hive-activity 必须有输入和输出,但我必须在脚本文件中给出它们。

我正在尝试找到一种方法来自动化这个配置单元脚本并等待一些想法?

干杯,

0 投票
1 回答
284 浏览

amazon-web-services - 用于导出 DynamoDb 的内容

我想创建一个数据管道,它将从 dynamoDB 导出数据并将其导入到 s3。一切似乎都很好,但有一个问题,因为我在 dynamoDB 上的数据是二进制和管道设置,不接受二进制数据类型。

我该怎么办?

干杯,

0 投票
1 回答
609 浏览

amazon-web-services - 从外部数据源备份到 AWS S3(使用数据管道)?

我正在尝试将位于外部 Web 服务器上的一些日志文件移动到 Amazon S3 存储桶。这应该每 7 天发生一次,无需手动激活它。此外,我希望它是“故障安全的”,因此最好在亚马逊云中完成复制操作。我已经阅读了有关 AWS Data Pipelining 解决方案的一些内容,但我找不到任何关于如何让它与外部(这意味着不是由 Amazon 托管)数据源一起工作的内容,更不用说从网络服务器下载文件然后处理了它。有人有类似问题的经验吗?对我有什么建议从哪里开始?

谢谢!

0 投票
1 回答
395 浏览

amazon-data-pipeline - 如何从 aws 数据管道禁用安装猪步骤

我正在使用 EMR 集群作为资源创建数据管道。由于服务器在引导后创建,它会自动执行一些步骤,即

一切正常。

但我想从中删除步骤安装猪。有什么办法吗?