问题标签 [amazon-data-pipeline]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - AWS Data Pipeline 和 AWS SWF 中哪个调度器更好
我有一种情况,我必须根据这种情况触发我的工作流程"It has to process all files in s3 and then start again when there are files in s3"
。但是,我发现 Data Pipeline 会在每个计划的持续时间启动,而 SWF 会启动和结束作业,这也会关闭我的 EMR 集群。这两种情况都不适合这种情况。因此,对于必须根据条件启动或触发的进程,我发现两者都不合适。有没有其他选择?或者是 SWF 和数据管道之一可以执行我的任务。
elastic-map-reduce - 如何为通过数据管道启动的 EMR 集群设置实例角色?
我正在尝试将实例角色附加到我通过数据管道运行的集群。我想运行我自己的需要写入权限的映射器脚本DynamoDB
(“常规”HIVE 上传对我来说不起作用)。
我浏览了 API 文档,似乎虽然 EMR 可以为机器指定实例角色,但在数据管道 API 中它不受支持。
在这里要求确认这一点,并希望听到您是否有其他解决方案..
mysql - AWS 数据管道 - 从外部源中提取数据?
我正在尝试使用 AWS 数据管道将数据从外部托管的 MySQL 数据源提取到 RDS MySQL 实例中。
这甚至可能吗?如何配置?我在文档中找不到任何关于此的内容。
如果不可能,有没有更好的选择,或者我最好设置从外部服务器到 RDS 实例的手动推送?
php - 如何为管道分配主密钥以将 HLS 内容保护与 Elastic transcoder Amazon Web 服务一起使用
如何为管道分配主密钥以将 HLS 内容保护与 Elastic transcoder Amazon Web 服务一起使用?
我正在使用以下代码通过将“AwsKmsKeyArn key”的值提供给 createPipeline 函数来为管道分配主密钥
我正在观察以下键值作为管道的主键
但是登录到我的 AWS 控制台并查看创建的管道后,我无法找到主密钥。请帮我设置管道的主密钥,以便我可以实施 HLS 内容保护。
amazon-redshift - 使用亚马逊管道的红移副本因缺少主键而失败
我在 S3 上有一组文件,我正试图将它们加载到 redshift 中。我正在使用亚马逊数据管道来做到这一点。向导获取了集群、数据库和文件格式信息,但我收到错误消息,需要主键才能将表中的现有字段 ( KEEP_EXISTING
) 保留在表中
我的表架构是:
所以然后我在表上添加了一个复合主键,看看它是否可以工作,但我得到了同样的错误。
所以我决定添加一个标识列作为最后一列,并将其作为主键,但是 COPY 操作需要输入文件中该标识列的值,这没有多大意义
理想情况下,我希望它在没有主键或复合主键的情况下工作
有任何想法吗?
谢谢
amazon-redshift - amazon datapipeline 中 redshift 副本的 sqlactivity 不会为文件名选择通配符
我正在使用亚马逊数据管道中的 sqlActivity 将数据复制到我的 redshift 表中。
如果我指定一个像 part-00000.gz 这样的文件名,则脚本运行良好,但是当我指定通配符.gz 来选择目录中的所有文件时,我收到错误,通配符实际上被认为是文件名,因此它抱怨文件名 Output/Prod/Bens_Analytics/2015/02/10/IP_To_FileName/ .gz 不存在
开始交易;创建临时表 ip_to_filename_staging_table(如 bens_analytics_ip_to_filename);
从 's3://er-hadoop/Output/Prod/Bens_Analytics/2015/02/10/IP_To_FileName/*.gz' 凭证复制 ip_to_filename_staging_table 'aws_access_key_id=<>;aws_secret_access_key=<>' gzip 分隔符 '\t' COMPUPDATE OFF状态更新关闭;
使用 bens_analytics_ip_to_filename 从 ip_to_filename_staging_table 中删除(ip_to_filename_staging_table.day = bens_analytics_ip_to_filename.day 和 ip_to_filename_staging_table.ip = bens_analytics_ip_to_filename.ip 和 ip_to_filename_staging_table.filename = bens_analytics_ip_to_filename.filename);
插入bens_analytics_ip_to_filename select * from ip_to_filename_staging_table;
删除表 ip_to_filename_staging_table; 结束交易;
amazon-web-services - 创建一个带有标签的数据管道 usinf boto.datapipeline
我想创建带有标签的 AWS 数据管道。我们正在使用 boto.datapipeline API 来创建数据管道。这些标签用于为使用 IAM 管理的数据管道用户提供读/写访问权限
请提供代码语法以创建带有标签的数据管道
oracle - 如何将大量数据从 AWS Oracle RDS 实例移动到 S3?
我在 AWS Oracle RDS 实例的一个表(约 70 亿行)中有大量数据。最终结果是我希望该表作为管道分隔值存储在 S3 中,以便我可以将其读入 EMR。这基本上是一次性的事情,所以我需要它准确地工作,而不必因为超时而重新运行整个上传;我真的不在乎它是如何工作的,或者设置起来有多么困难/烦人。我在 Oracle 机器上具有 root 访问权限。我查看了 Data Pipelines,但似乎它们只支持 MySQL,我必须让它与 Oracle 一起使用。此外,我没有足够的硬盘空间将整个表转储到 Oracle 实例上的 CSV,然后上传。我怎样才能完成这项工作?
amazon-web-services - 这个从 DynamoDB 导出到 AWS Data Pipeline 中的 S3 的 HIVE 脚本有什么问题?
下面的 HIVE 脚本是否存在问题,或者这是另一个问题,可能与 AWS Data Pipeline 安装的 HIVE 版本有关?
我的 AWS Data Pipeline 的第一部分必须将大型表从 DynamoDB 导出到 S3,以便以后使用 EMR 进行处理。我用于测试的 DynamoDB 表只有几行,所以我知道数据格式正确。
与 AWS Data Pipeline“将 DynamoDB 导出到 S3”构建块关联的脚本适用于仅包含primitive_types
但不包含 exportarray_type
的表。(参考 - http://archive.cloudera.com/cdh/3/hive/language_manual/data-manipulation-statements.html)
我提取了所有数据管道特定的东西,现在我试图让以下基于 DynamoDB 文档的最小示例工作 - (参考 - http://docs.aws.amazon.com/amazondynamodb/latest/developerguide/EMR_Hive_Commands。 html )
这是我在运行上述脚本时看到的堆栈跟踪/EMR 错误 -
我已经尝试了一些调试方法,但没有一个成功 - 使用几个不同的 JSON SerDes 创建一个带格式的外部表。我不确定下一步该尝试什么。
非常感谢。
export - 自动 AWS DynamoDB 到 S3 导出失败并显示“角色/DataPipelineDefaultRole 无效”
完全按照此页面上的分步说明,我正在尝试将我的一个 DynamoDB 表的内容导出到 S3 存储桶。我完全按照指示创建了一个管道,但它无法运行。似乎无法识别/运行 EC2 资源来进行导出。当我通过 AWS 控制台访问 EMR 时,我看到如下条目:
为什么我会收到此消息?我是否需要设置/配置其他东西才能运行管道?
更新:在IAM->Roles
AWS 控制台下,我看到了这个DataPipelineDefaultResourceRole
:
这对于DataPipelineDefaultRole
:
这些是否需要以某种方式进行修改?