问题标签 [amazon-data-pipeline]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - 如何禁用/停用数据管道?
我刚刚创建了一个数据管道并激活了它。但是在运行时,它显示WAITING_ON_DEPENDENCIES
为我的EC2Resource
. 我怀疑这可能是由于某些权限问题。
所以,我现在想编辑管道。但是当我打开管道时,它会显示“ Pipeline is active.
”。许多字段不再可编辑。有什么方法可以停用和/或编辑管道?
问候。
amazon-web-services - AWS DataPipelineClient - listPipelines 不返回任何记录
我正在尝试使用 AWS Java SDK v1.7.5 访问我的 AWS DataPipelines,但 listPipelines 在下面的代码中返回一个空列表。
我有计划在美国东部地区的 DataPipelines,我相信我应该能够使用 DataPipelineClient 的 listPipelines 方法列出。我已经在使用 ProfilesConfigFile 进行身份验证并毫无问题地连接到 S3、DynamoDB 和 Kinesis。我已将 PowerUserAccess 访问策略授予配置文件中指定的 IAM 用户。我也尝试将管理员访问策略应用于用户,但它没有改变任何东西。这是我正在使用的代码:
amazon-web-services - 使用亚马逊数据管道将 dynamoDB 数据备份到 S3
我需要使用亚马逊数据管道将我的 dynamoDB 表数据备份到 S3。
我的问题是-我可以使用单个数据管道将多个 dynamoDB 表备份到 S3,还是必须为每个表创建一个单独的管道?
另外,由于我的表有一个 year_month 前缀(ex- 2014_3_tableName),我正在考虑使用 datapipeline SDK 在月份更改时更改管道定义中的表名。这行得通吗?有替代/更好的方法吗?
谢谢!!
amazon-web-services - EMR 活动卡在 Waiting_For_Runner 状态
我正在创建一个数据管道以将 dynamoDB 表导出到 S3 存储桶。我在数据管道控制台中使用了标准模板。我已验证 runsOn 字段设置为要启动的 EMR 集群的名称。但是,EMR 活动状态仍为 Waiting_For_Runner...任何想法为什么会这样?
谢谢!!!
python - 从 s3 存储桶读取 aws 数据管道活动中的数据时出错
我们有 AWS 数据管道,其中有一个活动(python 脚本),它从/向 s3 存储桶读取/写入数据。我们最近注意到由于套接字连接关闭而导致从 s3 读取失败的活动失败。错误是间歇性的。失败发生在脚本的同一行。
在我们的代码中,我们以 1KB 的块从 s3 读取数据。失败发生在从 s3 中读取文件的过程中。有谁知道允许从 EC2 实例到 s3 存储桶的连接数是否有上限?
apache-pig - 来自猪脚本的亚马逊运动
如何在本地使用 pig 脚本从 kinesis 流中提取数据。
我从 amazon 文档中注意到了这个示例,但不确定如何导入 amazon kinesis pig 库,并且该示例似乎不完整。我在哪里设置凭据,我在哪里可以获得 kinesis 库的 jar ......等等......他们的例子来自 grunt-shell,但我如何从我自己的机器上本地运行它?
http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/kinesis-pig-generate-data.html
amazon-data-pipeline - 使用 AWS Data Pipeline 将本地数据复制到 S3
如何使用 AWS Data Pipeline 将数据从本地 SQL 数据库导入 Amazon S3?任何教程的链接都会对我有很大帮助。
python - ShellCommandActivity 和 python 脚本
我正在尝试将 Elastic Data Pipeline 与 shell 命令活动一起使用来处理一些数据文件。具体来说,我正在尝试使用 python 来处理一些分阶段的数据。
我对 python 脚本的第一次尝试看起来像:
由于 ${INPUT1_STAGING_DIR} 未定义,此代码在命中第四个打印语句时引发错误。
之后,我尝试将 ${INPUT1_STAGING_DIR} 作为参数传递给脚本,并将脚本修改为:
这次脚本成功完成并具有以下输出。
同样, ${INPUT1_STAGING_DIR} 没有“替代”任何类似于我正在暂存的文件的东西。我正在尝试做的事情可能吗?如果没有,有没有好的解决方法?
hadoop - aws datapipeline:等待依赖项
我有一个数据管道卡住并进入挂起模式,每次“等待依赖项”。
这里我使用的是“Hive Activity”,它需要输入和输出。就我而言,我所有的数据都在 hadoop 基础架构中,因此我真的不需要 S3 输入和 S3 输出。但是,由于数据管道错误,无法删除它们。此外,尽管有 S3 节点“存在”的先决条件,管道仍会在此时卡住。每次我运行这个管道时,我都必须手动“markfinish”S3node,然后事情就开始了。
任何见解都会有所帮助。AWS Datapipeline 文档没有详细介绍。
variables - aws 数据管道日期时间变量
我正在使用 AWS Data Pipeline 将文本文件从 RDS 保存到我的 S3 存储桶。我希望文件名在文件名中包含日期和小时,例如:
我已将我的 S3DataNode FilePath指定为:
当我尝试保存管道时,出现以下错误:
根据日期和时间函数的 AWS Data Pipeline 文档,这是使用format函数的正确语法。
当我使用“硬编码”日期和时间保存管道时,我没有收到此错误,并且我的文件按预期位于我的 S3 存储桶和文件夹中。
我的想法是我需要在某处定义“myDateTime”或使用 NOW()
有人可以告诉我如何将“myDateTime”设置为当前时间(例如现在)或提供解决方法,以便我可以格式化当前时间以在我的FilePath中使用?