“amazon-data-pipeline”的相关标签问题

0 投票

3 回答

3634 浏览

amazon-web-services - AWS Data Pipeline 和 AWS SWF 中哪个调度器更好

我有一种情况，我必须根据这种情况触发我的工作流程"It has to process all files in s3 and then start again when there are files in s3"。但是，我发现 Data Pipeline 会在每个计划的持续时间启动，而 SWF 会启动和结束作业，这也会关闭我的 EMR 集群。这两种情况都不适合这种情况。因此，对于必须根据条件启动或触发的进程，我发现两者都不合适。有没有其他选择？或者是 SWF 和数据管道之一可以执行我的任务。

2015-02-04T15:27:50.537

0 投票

1 回答

180 浏览

elastic-map-reduce - 如何为通过数据管道启动的 EMR 集群设置实例角色？

我正在尝试将实例角色附加到我通过数据管道运行的集群。我想运行我自己的需要写入权限的映射器脚本DynamoDB（“常规”HIVE 上传对我来说不起作用）。

我浏览了 API 文档，似乎虽然 EMR 可以为机器指定实例角色，但在数据管道 API 中它不受支持。

在这里要求确认这一点，并希望听到您是否有其他解决方案..

elastic-map-reduce amazon-emr amazon-data-pipeline

2015-02-05T09:18:20.643

0 投票

1 回答

863 浏览

mysql - AWS 数据管道 - 从外部源中提取数据？

我正在尝试使用 AWS 数据管道将数据从外部托管的 MySQL 数据源提取到 RDS MySQL 实例中。

这甚至可能吗？如何配置？我在文档中找不到任何关于此的内容。

如果不可能，有没有更好的选择，或者我最好设置从外部服务器到 RDS 实例的手动推送？

mysql amazon-web-services amazon-rds amazon-data-pipeline

2015-02-12T11:39:20.730

0 投票

0 回答

223 浏览

php - 如何为管道分配主密钥以将 HLS 内容保护与 Elastic transcoder Amazon Web 服务一起使用

如何为管道分配主密钥以将 HLS 内容保护与 Elastic transcoder Amazon Web 服务一起使用？

我正在使用以下代码通过将“AwsKmsKeyArn key”的值提供给 createPipeline 函数来为管道分配主密钥

我正在观察以下键值作为管道的主键

但是登录到我的 AWS 控制台并查看创建的管道后，我无法找到主密钥。请帮我设置管道的主密钥，以便我可以实施 HLS 内容保护。

php amazon-web-services amazon-data-pipeline

2015-02-16T16:38:28.040

0 投票

2 回答

1000 浏览

amazon-redshift - 使用亚马逊管道的红移副本因缺少主键而失败

我在 S3 上有一组文件，我正试图将它们加载到 redshift 中。我正在使用亚马逊数据管道来做到这一点。向导获取了集群、数据库和文件格式信息，但我收到错误消息，需要主键才能将表中的现有字段 ( KEEP_EXISTING) 保留在表中

我的表架构是：

所以然后我在表上添加了一个复合主键，看看它是否可以工作，但我得到了同样的错误。

所以我决定添加一个标识列作为最后一列，并将其作为主键，但是 COPY 操作需要输入文件中该标识列的值，这没有多大意义

理想情况下，我希望它在没有主键或复合主键的情况下工作

有任何想法吗？

谢谢

amazon-redshift amazon-data-pipeline

2015-02-19T00:28:11.680

0 投票

1 回答

230 浏览

amazon-redshift - amazon datapipeline 中 redshift 副本的 sqlactivity 不会为文件名选择通配符

我正在使用亚马逊数据管道中的 sqlActivity 将数据复制到我的 redshift 表中。
如果我指定一个像 part-00000.gz 这样的文件名，则脚本运行良好，但是当我指定通配符.gz 来选择目录中的所有文件时，我收到错误，通配符实际上被认为是文件名，因此它抱怨文件名 Output/Prod/Bens_Analytics/2015/02/10/IP_To_FileName/ .gz 不存在

开始交易；创建临时表 ip_to_filename_staging_table（如 bens_analytics_ip_to_filename）；

从 's3://er-hadoop/Output/Prod/Bens_Analytics/2015/02/10/IP_To_FileName/*.gz' 凭证复制 ip_to_filename_staging_table 'aws_access_key_id=<>;aws_secret_access_key=<>' gzip 分隔符 '\t' COMPUPDATE OFF状态更新关闭；

使用 bens_analytics_ip_to_filename 从 ip_to_filename_staging_table 中删除（ip_to_filename_staging_table.day = bens_analytics_ip_to_filename.day 和 ip_to_filename_staging_table.ip = bens_analytics_ip_to_filename.ip 和 ip_to_filename_staging_table.filename = bens_analytics_ip_to_filename.filename）；

插入bens_analytics_ip_to_filename select * from ip_to_filename_staging_table;

删除表 ip_to_filename_staging_table; 结束交易；

amazon-redshift amazon-data-pipeline

2015-02-20T22:58:56.343

0 投票

1 回答

97 浏览

amazon-web-services - 创建一个带有标签的数据管道 usinf boto.datapipeline

我想创建带有标签的 AWS 数据管道。我们正在使用 boto.datapipeline API 来创建数据管道。这些标签用于为使用 IAM 管理的数据管道用户提供读/写访问权限

请提供代码语法以创建带有标签的数据管道

amazon-web-services amazon-data-pipeline

2015-02-27T10:48:42.290

0 投票

2 回答

1751 浏览

oracle - 如何将大量数据从 AWS Oracle RDS 实例移动到 S3？

我在 AWS Oracle RDS 实例的一个表（约 70 亿行）中有大量数据。最终结果是我希望该表作为管道分隔值存储在 S3 中，以便我可以将其读入 EMR。这基本上是一次性的事情，所以我需要它准确地工作，而不必因为超时而重新运行整个上传；我真的不在乎它是如何工作的，或者设置起来有多么困难/烦人。我在 Oracle 机器上具有 root 访问权限。我查看了 Data Pipelines，但似乎它们只支持 MySQL，我必须让它与 Oracle 一起使用。此外，我没有足够的硬盘空间将整个表转储到 Oracle 实例上的 CSV，然后上传。我怎样才能完成这项工作？

oracle amazon-web-services amazon-s3 amazon-rds amazon-data-pipeline

2015-03-03T19:50:13.123

0 投票

1 回答

2140 浏览

amazon-web-services - 这个从 DynamoDB 导出到 AWS Data Pipeline 中的 S3 的 HIVE 脚本有什么问题？

下面的 HIVE 脚本是否存在问题，或者这是另一个问题，可能与 AWS Data Pipeline 安装的 HIVE 版本有关？

我的 AWS Data Pipeline 的第一部分必须将大型表从 DynamoDB 导出到 S3，以便以后使用 EMR 进行处理。我用于测试的 DynamoDB 表只有几行，所以我知道数据格式正确。

与 AWS Data Pipeline“将 DynamoDB 导出到 S3”构建块关联的脚本适用于仅包含primitive_types但不包含 exportarray_type的表。（参考 - http://archive.cloudera.com/cdh/3/hive/language_manual/data-manipulation-statements.html）

我提取了所有数据管道特定的东西，现在我试图让以下基于 DynamoDB 文档的最小示例工作 - （参考 - http://docs.aws.amazon.com/amazondynamodb/latest/developerguide/EMR_Hive_Commands。 html )

这是我在运行上述脚本时看到的堆栈跟踪/EMR 错误 -

我已经尝试了一些调试方法，但没有一个成功 - 使用几个不同的 JSON SerDes 创建一个带格式的外部表。我不确定下一步该尝试什么。

非常感谢。

amazon-web-services amazon-s3 hive amazon-dynamodb amazon-data-pipeline

2015-03-05T16:03:26.147

0 投票

4 回答

3352 浏览

export - 自动 AWS DynamoDB 到 S3 导出失败并显示“角色/DataPipelineDefaultRole 无效”

完全按照此页面上的分步说明，我正在尝试将我的一个 DynamoDB 表的内容导出到 S3 存储桶。我完全按照指示创建了一个管道，但它无法运行。似乎无法识别/运行 EC2 资源来进行导出。当我通过 AWS 控制台访问 EMR 时，我看到如下条目：

为什么我会收到此消息？我是否需要设置/配置其他东西才能运行管道？

更新：在IAM->RolesAWS 控制台下，我看到了这个DataPipelineDefaultResourceRole：

这对于DataPipelineDefaultRole：

这些是否需要以某种方式进行修改？

export amazon-dynamodb amazon-emr amazon-iam amazon-data-pipeline

2015-03-06T20:21:06.733

问题标签 [amazon-data-pipeline]

Reference