问题标签 [amazon-data-pipeline]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-s3 - AWS:通过使用 amazon-data-pipeline 将数据从 S3 传输到 Redshift 来实现除 COPY 之外的其他功能
我正在尝试使用 Amazon-Data-Pipeline 工具将数据从 Amazon S3-Cloud 传输到 Amazon-Redshift。
是否可以在传输数据时使用例如 SQL 语句更改数据,以便仅将 SQL 语句的结果作为 Redshift 的输入?
我只发现复制命令如下:
资料来源:https ://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-get-started-copy-data-cli.html
amazon-swf - 用于 Pig 脚本的 Amazon SWF 与 Data Pipeline
您好,我想在 Amazon EMR 上运行一个每日数据导入猪脚本。我应该使用简单工作流还是数据管道来安排和监控作业?我尝试通过数据管道,但它似乎需要一个输出。如果我正在运行自定义猪脚本,这个输出会进入什么?他们是否希望您为数据导入任务/作业使用默认的预制猪脚本?
在我的例子中,我有一个猪脚本,它从 S3 输入中获取并执行一些数据转换,然后推送到 dynamodb。试图在数据管道中安排这个猪脚本,我看到有一个猪活动类型和一个 s3 到 dynamodb 模板,但我不知道如何自定义/修改它,以便它运行我的猪脚本并在它去之前转换数据发电机分贝。这个过程中s3和dynamodb映射设置在哪里?由于 pig 脚本从 s3 导入并单独导出到 dynamodb,这是否是多余的?
amazon-web-services - 我所有的 AWS 数据管道都已停止工作并出现验证错误
我每周使用 AWS 数据管道将 dynamodb 表自动备份到 S3。
自两周前以来,我所有的数据管道都已停止工作。
经过一番调查,我发现 EMR 因“验证错误”和“因错误而终止,没有为用户帐户找到活动密钥”而失败。结果所有作业都超时。
任何想法这意味着什么?
我排除了对允许与 EMR 一起使用的即时类型列表的更改。
此外,我尝试阅读 EMR 日志,但似乎没有达到创建日志的目的(或者我在错误的地方寻找它们)。
amazon-data-pipeline - hive 分布式查询以连接来自 on-primise hadoop 集群和 amazon s3 hadoop 集群的数据
我在 on-primise hadoop 集群(在我的本地网络中)中有一定数量的数据,我在 Amazon 云 S3 hadoop 集群中有一定数量的数据。在这两个地方,我的数据都驻留在配置单元表中。
我想从我的本地 hadoop 集群中触发一个 hive 查询,这个查询应该加入来自我的本地集群 hive 表的数据和来自 amazon s3 hadoop 集群的 hive 表数据。它应该连接来自两个地方的数据并给出结果
到我的本地集群环境,因为我正在从本地配置单元外壳发出查询。
这个问题可以通过 Amazon Data Pipeline 处理吗?如果是,请指导我。
谢谢,-Suyodha
amazon-s3 - 从 RDS 到 S3 副本的模板上的数据管道错误
我正在使用模板进行复制。在“S3”数据节点中,我配置了自定义格式,因为我的列数据包含“逗号”。
我使用的自定义数据格式具有以下属性
列分隔符 " 是 PIPE ("|") 并且记录分隔符是 "\n"
当我运行管道数据时不会加载到 S3 并给我以下错误
复制记录时出错\n原因:java.lang.reflect.InvocationTargetException\n原因:null\n原因:引号字符必须以记录格式定义
任何人都遇到过这个问题。
amazon-web-services - 从管道 AWS 中删除 s3 文件
我想询问我正在尝试使用 AWS 中的数据管道完成的处理任务,但我无法让它工作。
基本上,我有代表 2 个 MySQL 数据库的 2 个数据节点,应该定期从其中提取数据并放置在 S3 存储桶中。此复制活动运行良好,每天选择已添加的每一行,假设今天 - 1 天。
但是,包含作为 CSV 收集的数据的存储桶应该成为 EMR 活动的输入,该活动将处理这些文件并聚合信息。问题是我不知道如何删除或移动已处理的文件到不同的存储桶,所以我不必每天处理所有文件。
为了澄清,我正在寻找一种方法来从管道中移动或删除 S3 存储桶中已处理的文件。我可以这样做吗?有没有其他方法我只能根据命名约定或其他方式处理 EMR 活动中的某些文件?
amazon-web-services - 使用标准角色部署 AWS 数据管道
尝试简单地部署以前有效的数据管道定义。这次我更改了角色以与另一个 AWS(生产与暂存)帐户保持一致。
当我通过 AWS CLI 部署时,我收到以下消息:
这是 DataPipelineDefaultRole 的定义:
我还注意到,当我尝试重新创建“DataPipelineDefaultRole”时,有时“Instance Profile ARN(s)”为空白。最后,我能够重新创建角色 - 通过“hello world 数据管道模板”设置和/或手动步骤的组合。(存在实例 ARN)
即使角色设置为:
这没用。
我究竟做错了什么?
postgresql - 如何将数据从 AWS Postgres RDS 传输到 S3(然后是 Redshift)?
我正在使用 AWS 数据管道服务将数据从RDS MySql
数据库传输到s3
,然后再传输到Redshift
,效果很好。
但是,我也有一个RDS Postres
实例中的数据,我想以相同的方式进行管道传输,但我很难设置 jdbc 连接。如果这不受支持,是否有解决方法?
amazon-ec2 - 在 Pipeline 的 EMR 集群中标记 EC2 机器(S3->DynamoDB 示例中的 ImportCluster)
我正在尝试运行 S3->DynamoDB 示例,但在运行为该MyImportJob
活动创建的 EMR 集群时遇到了一些问题。
我们配置了我们的 IAM 账户,这样每个用户都可以创建带有特定“team_id”标签(属于他的团队)的 EC2 机器。这有助于我们控制资源、防止错误和监控使用情况。
当 Pipeline 尝试启动 EMR 集群时,它(可能)在没有标签的情况下执行它,因此它失败并显示Terminated with errors: User account is not authorized to call EC2
. 我试图在 EMRCluster 资源中找到一个配置,但找不到任何可以帮助我设置它的东西。我很确定它会因为标签政策而失败。
知道如何克服这个问题吗?
如果为此创建 CloudFormation 模板是否有帮助?我在那里有更多的控制权吗?(无论如何,我将创建管道作为应用程序模板的一部分,只是想体验一下之前的产品)。
谢谢!
amazon-dynamodb - 在 ShellCommandActivity 上从命令行运行 AWS 命令
我最初的问题是我想在运行管道之前增加我的 DynamoDB 写入吞吐量,然后在我完成上传时减少它(每天最多执行一次,所以我对减少的限制很好)。
我发现这样做的唯一方法是通过一个 shell 脚本,该脚本将发出 API 命令来改变吞吐量。当它是管道为我创建的资源时,它如何与我的 AMI access_key 和 secret_key 一起使用?(我无法登录以设置~/.aws/config
文件,也不想为此创建 AMI)。
我应该用 bash 编写脚本吗?例如,我可以使用 ruby/python AWS SDK 包吗?(我更喜欢后者..)如何将我的凭据传递给脚本?我是否有运行时变量(如@startedDate
),我可以使用我的密钥和秘密将其作为参数传递给活动?我是否有任何其他方式来使用命令行工具或 SDK 包进行身份验证?
如果有其他方法可以解决我原来的问题 - 请告诉我。我只能找到ShellActivity
解决方案,因为我在文档/论坛中找不到任何其他内容。
谢谢!