问题标签 [amazon-data-pipeline]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
3634 浏览

amazon-web-services - AWS Data Pipeline 和 AWS SWF 中哪个调度器更好

我有一种情况,我必须根据这种情况触发我的工作流程"It has to process all files in s3 and then start again when there are files in s3"。但是,我发现 Data Pipeline 会在每个计划的持续时间启动,而 SWF 会启动和结束作业,这也会关闭我的 EMR 集群。这两种情况都不适合这种情况。因此,对于必须根据条件启动或触发的进程,我发现两者都不合适。有没有其他选择?或者是 SWF 和数据管道之一可以执行我的任务。

0 投票
1 回答
180 浏览

elastic-map-reduce - 如何为通过数据管道启动的 EMR 集群设置实例角色?

我正在尝试将实例角色附加到我通过数据管道运行的集群。我想运行我自己的需要写入权限的映射器脚本DynamoDB(“常规”HIVE 上传对我来说不起作用)。

我浏览了 API 文档,似乎虽然 EMR 可以为机器指定实例角色,但在数据管道 API 中它不受支持。

在这里要求确认这一点,并希望听到您是否有其他解决方案..

0 投票
1 回答
863 浏览

mysql - AWS 数据管道 - 从外部源中提取数据?

我正在尝试使用 AWS 数据管道将数据从外部托管的 MySQL 数据源提取到 RDS MySQL 实例中。

这甚至可能吗?如何配置?我在文档中找不到任何关于此的内容。

如果不可能,有没有更好的选择,或者我最好设置从外部服务器到 RDS 实例的手动推送?

0 投票
0 回答
223 浏览

php - 如何为管道分配主密钥以将 HLS 内容保护与 Elastic transcoder Amazon Web 服务一起使用

如何为管道分配主密钥以将 HLS 内容保护与 Elastic transcoder Amazon Web 服务一起使用?

我正在使用以下代码通过将“AwsKmsKeyArn key”的值提供给 createPipeline 函数来为管道分配主密钥

我正在观察以下键值作为管道的主键

但是登录到我的 AWS 控制台并查看创建的管道后,我无法找到主密钥。请帮我设置管道的主密钥,以便我可以实施 HLS 内容保护。

0 投票
2 回答
1000 浏览

amazon-redshift - 使用亚马逊管道的红移副本因缺少主键而失败

我在 S3 上有一组文件,我正试图将它们加载到 redshift 中。我正在使用亚马逊数据管道来做到这一点。向导获取了集群、数据库和文件格式信息,但我收到错误消息,需要主键才能将表中的现有字段 ( KEEP_EXISTING) 保留在表中

我的表架构是:

所以然后我在表上添加了一个复合主键,看看它是否可以工作,但我得到了同样的错误。

所以我决定添加一个标识列作为最后一列,并将其作为主键,但是 COPY 操作需要输入文件中该标识列的值,这没有多大意义

理想情况下,我希望它在没有主键或复合主键的情况下工作

有任何想法吗?

谢谢

0 投票
1 回答
230 浏览

amazon-redshift - amazon datapipeline 中 redshift 副本的 sqlactivity 不会为文件名选择通配符

我正在使用亚马逊数据管道中的 sqlActivity 将数据复制到我的 redshift 表中。
如果我指定一个像 part-00000.gz 这样的文件名,则脚本运行良好,但是当我指定通配符.gz 来选择目录中的所有文件时,我收到错误,通配符实际上被认为是文件名,因此它抱怨文件名 Output/Prod/Bens_Analytics/2015/02/10/IP_To_FileName/ .gz 不存在

开始交易;创建临时表 ip_to_filename_staging_table(如 bens_analytics_ip_to_filename);

从 's3://er-hadoop/Output/Prod/Bens_Analytics/2015/02/10/IP_To_FileName/*.gz' 凭证复制 ip_to_filename_staging_table 'aws_access_key_id=<>;aws_secret_access_key=<>' gzip 分隔符 '\t' COMPUPDATE OFF状态更新关闭;

使用 bens_analytics_ip_to_filename 从 ip_to_filename_staging_table 中删除(ip_to_filename_staging_table.day = bens_analytics_ip_to_filename.day 和 ip_to_filename_staging_table.ip = bens_analytics_ip_to_filename.ip 和 ip_to_filename_staging_table.filename = bens_analytics_ip_to_filename.filename);

插入bens_analytics_ip_to_filename select * from ip_to_filename_staging_table;

删除表 ip_to_filename_staging_table; 结束交易;

0 投票
1 回答
97 浏览

amazon-web-services - 创建一个带有标签的数据管道 usinf boto.datapipeline

我想创建带有标签的 AWS 数据管道。我们正在使用 boto.datapipeline API 来创建数据管道。这些标签用于为使用 IAM 管理的数据管道用户提供读/写访问权限

请提供代码语法以创建带有标签的数据管道

0 投票
2 回答
1751 浏览

oracle - 如何将大量数据从 AWS Oracle RDS 实例移动到 S3?

我在 AWS Oracle RDS 实例的一个表(约 70 亿行)中有大量数据。最终结果是我希望该表作为管道分隔值存储在 S3 中,以便我可以将其读入 EMR。这基本上是一次性的事情,所以我需要它准确地工作,而不必因为超时而重新运行整个上传;我真的不在乎它是如何工作的,或者设置起来有多么困难/烦人。我在 Oracle 机器上具有 root 访问权限。我查看了 Data Pipelines,但似乎它们只支持 MySQL,我必须让它与 Oracle 一起使用。此外,我没有足够的硬盘空间将整个表转储到 Oracle 实例上的 CSV,然后上传。我怎样才能完成这项工作?

0 投票
1 回答
2140 浏览

amazon-web-services - 这个从 DynamoDB 导出到 AWS Data Pipeline 中的 S3 的 HIVE 脚本有什么问题?

下面的 HIVE 脚本是否存在问题,或者这是另一个问题,可能与 AWS Data Pipeline 安装的 HIVE 版本有关?

我的 AWS Data Pipeline 的第一部分必须将大型表从 DynamoDB 导出到 S3,以便以后使用 EMR 进行处理。我用于测试的 DynamoDB 表只有几行,所以我知道数据格式正确。

与 AWS Data Pipeline“将 DynamoDB 导出到 S3”构建块关联的脚本适用于仅包含primitive_types但不包含 exportarray_type的表。(参考 - http://archive.cloudera.com/cdh/3/hive/language_manual/data-manipulation-statements.html

我提取了所有数据管道特定的东西,现在我试图让以下基于 DynamoDB 文档的最小示例工作 - (参考 - http://docs.aws.amazon.com/amazondynamodb/latest/developerguide/EMR_Hive_Commands。 html )

这是我在运行上述脚本时看到的堆栈跟踪/EMR 错误 -

我已经尝试了一些调试方法,但没有一个成功 - 使用几个不同的 JSON SerDes 创建一个带格式的外部表。我不确定下一步该尝试什么。

非常感谢。

0 投票
4 回答
3352 浏览

export - 自动 AWS DynamoDB 到 S3 导出失败并显示“角色/DataPipelineDefaultRole 无效”

完全按照此页面上的分步说明,我正在尝试将我的一个 DynamoDB 表的内容导出到 S3 存储桶。我完全按照指示创建了一个管道,但它无法运行。似乎无法识别/运行 EC2 资源来进行导出。当我通过 AWS 控制台访问 EMR 时,我看到如下条目:

为什么我会收到此消息?我是否需要设置/配置其他东西才能运行管道?

更新:在IAM->RolesAWS 控制台下,我看到了这个DataPipelineDefaultResourceRole

这对于DataPipelineDefaultRole

这些是否需要以某种方式进行修改?