“amazon-data-pipeline”的相关标签问题

0 投票

3 回答

2595 浏览

amazon-s3 - AWS：通过使用 amazon-data-pipeline 将数据从 S3 传输到 Redshift 来实现除 COPY 之外的其他功能

我正在尝试使用 Amazon-Data-Pipeline 工具将数据从 Amazon S3-Cloud 传输到 Amazon-Redshift。

是否可以在传输数据时使用例如 SQL 语句更改数据，以便仅将 SQL 语句的结果作为 Redshift 的输入？

我只发现复制命令如下：

资料来源：https ://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-get-started-copy-data-cli.html

2014-08-14T13:38:15.693

0 投票

1 回答

513 浏览

amazon-swf - 用于 Pig 脚本的 Amazon SWF 与 Data Pipeline

您好，我想在 Amazon EMR 上运行一个每日数据导入猪脚本。我应该使用简单工作流还是数据管道来安排和监控作业？我尝试通过数据管道，但它似乎需要一个输出。如果我正在运行自定义猪脚本，这个输出会进入什么？他们是否希望您为数据导入任务/作业使用默认的预制猪脚本？

在我的例子中，我有一个猪脚本，它从 S3 输入中获取并执行一些数据转换，然后推送到 dynamodb。试图在数据管道中安排这个猪脚本，我看到有一个猪活动类型和一个 s3 到 dynamodb 模板，但我不知道如何自定义/修改它，以便它运行我的猪脚本并在它去之前转换数据发电机分贝。这个过程中s3和dynamodb映射设置在哪里？由于 pig 脚本从 s3 导入并单独导出到 dynamodb，这是否是多余的？

amazon-swf amazon-data-pipeline

2014-09-04T20:24:19.223

0 投票

2 回答

393 浏览

amazon-web-services - 我所有的 AWS 数据管道都已停止工作并出现验证错误

我每周使用 AWS 数据管道将 dynamodb 表自动备份到 S3。
自两周前以来，我所有的数据管道都已停止工作。

经过一番调查，我发现 EMR 因“验证错误”和“因错误而终止，没有为用户帐户找到活动密钥”而失败。结果所有作业都超时。

任何想法这意味着什么？
我排除了对允许与 EMR 一起使用的即时类型列表的更改。
此外，我尝试阅读 EMR 日志，但似乎没有达到创建日志的目的（或者我在错误的地方寻找它们）。

amazon-web-services amazon-emr amazon-data-pipeline

2014-09-05T20:30:23.157

0 投票

1 回答

245 浏览

amazon-data-pipeline - hive 分布式查询以连接来自 on-primise hadoop 集群和 amazon s3 hadoop 集群的数据

我在 on-primise hadoop 集群（在我的本地网络中）中有一定数量的数据，我在 Amazon 云 S3 hadoop 集群中有一定数量的数据。在这两个地方，我的数据都驻留在配置单元表中。

我想从我的本地 hadoop 集群中触发一个 hive 查询，这个查询应该加入来自我的本地集群 hive 表的数据和来自 amazon s3 hadoop 集群的 hive 表数据。它应该连接来自两个地方的数据并给出结果

到我的本地集群环境，因为我正在从本地配置单元外壳发出查询。

这个问题可以通过 Amazon Data Pipeline 处理吗？如果是，请指导我。

谢谢，-Suyodha

amazon-data-pipeline

2014-09-10T17:08:14.470

0 投票

2 回答

1699 浏览

amazon-s3 - 从 RDS 到 S3 副本的模板上的数据管道错误

我正在使用模板进行复制。在“S3”数据节点中，我配置了自定义格式，因为我的列数据包含“逗号”。

我使用的自定义数据格式具有以下属性

列分隔符 " 是 PIPE ("|") 并且记录分隔符是 "\n"

当我运行管道数据时不会加载到 S3 并给我以下错误

复制记录时出错\n原因：java.lang.reflect.InvocationTargetException\n原因：null\n原因：引号字符必须以记录格式定义

任何人都遇到过这个问题。

amazon-s3 amazon-rds amazon-data-pipeline

2014-09-30T00:55:11.893

0 投票

3 回答

3324 浏览

amazon-web-services - 从管道 AWS 中删除 s3 文件

我想询问我正在尝试使用 AWS 中的数据管道完成的处理任务，但我无法让它工作。

基本上，我有代表 2 个 MySQL 数据库的 2 个数据节点，应该定期从其中提取数据并放置在 S3 存储桶中。此复制活动运行良好，每天选择已添加的每一行，假设今天 - 1 天。

但是，包含作为 CSV 收集的数据的存储桶应该成为 EMR 活动的输入，该活动将处理这些文件并聚合信息。问题是我不知道如何删除或移动已处理的文件到不同的存储桶，所以我不必每天处理所有文件。

为了澄清，我正在寻找一种方法来从管道中移动或删除 S3 存储桶中已处理的文件。我可以这样做吗？有没有其他方法我只能根据命名约定或其他方式处理 EMR 活动中的某些文件？

amazon-web-services emr amazon-data-pipeline

2014-10-22T18:20:38.993

0 投票

1 回答

943 浏览

amazon-web-services - 使用标准角色部署 AWS 数据管道

尝试简单地部署以前有效的数据管道定义。这次我更改了角色以与另一个 AWS（生产与暂存）帐户保持一致。

当我通过 AWS CLI 部署时，我收到以下消息：

这是 DataPipelineDefaultRole 的定义：

我还注意到，当我尝试重新创建“DataPipelineDefaultRole”时，有时“Instance Profile ARN(s)”为空白。最后，我能够重新创建角色 - 通过“hello world 数据管道模板”设置和/或手动步骤的组合。（存在实例 ARN）

即使角色设置为：

这没用。

我究竟做错了什么？

amazon-web-services amazon-iam amazon-data-pipeline

2014-11-04T17:02:05.463

0 投票

3 回答

14756 浏览

postgresql - 如何将数据从 AWS Postgres RDS 传输到 S3（然后是 Redshift）？

我正在使用 AWS 数据管道服务将数据从RDS MySql数据库传输到s3，然后再传输到Redshift，效果很好。

但是，我也有一个RDS Postres实例中的数据，我想以相同的方式进行管道传输，但我很难设置 jdbc 连接。如果这不受支持，是否有解决方法？

postgresql amazon-web-services amazon-redshift amazon-data-pipeline

2014-11-06T14:21:34.837

0 投票

1 回答

129 浏览

amazon-ec2 - 在 Pipeline 的 EMR 集群中标记 EC2 机器（S3->DynamoDB 示例中的 ImportCluster）

我正在尝试运行 S3->DynamoDB 示例，但在运行为该MyImportJob活动创建的 EMR 集群时遇到了一些问题。

我们配置了我们的 IAM 账户，这样每个用户都可以创建带有特定“team_id”标签（属于他的团队）的 EC2 机器。这有助于我们控制资源、防止错误和监控使用情况。

当 Pipeline 尝试启动 EMR 集群时，它（可能）在没有标签的情况下执行它，因此它失败并显示Terminated with errors: User account is not authorized to call EC2. 我试图在 EMRCluster 资源中找到一个配置，但找不到任何可以帮助我设置它的东西。我很确定它会因为标签政策而失败。

知道如何克服这个问题吗？
如果为此创建 CloudFormation 模板是否有帮助？我在那里有更多的控制权吗？（无论如何，我将创建管道作为应用程序模板的一部分，只是想体验一下之前的产品）。

谢谢！

amazon-ec2 amazon-cloudformation amazon-data-pipeline

2014-11-11T09:49:39.447

0 投票

1 回答

234 浏览

amazon-dynamodb - 在 ShellCommandActivity 上从命令行运行 AWS 命令

我最初的问题是我想在运行管道之前增加我的 DynamoDB 写入吞吐量，然后在我完成上传时减少它（每天最多执行一次，所以我对减少的限制很好）。

我发现这样做的唯一方法是通过一个 shell 脚本，该脚本将发出 API 命令来改变吞吐量。当它是管道为我创建的资源时，它如何与我的 AMI access_key 和 secret_key 一起使用？（我无法登录以设置~/.aws/config文件，也不想为此创建 AMI）。

我应该用 bash 编写脚本吗？例如，我可以使用 ruby/python AWS SDK 包吗？（我更喜欢后者..）如何将我的凭据传递给脚本？我是否有运行时变量（如@startedDate），我可以使用我的密钥和秘密将其作为参数传递给活动？我是否有任何其他方式来使用命令行工具或 SDK 包进行身份验证？

如果有其他方法可以解决我原来的问题 - 请告诉我。我只能找到ShellActivity解决方案，因为我在文档/论坛中找不到任何其他内容。

谢谢！

amazon-dynamodb amazon-data-pipeline

2014-11-19T15:39:19.000

问题标签 [amazon-data-pipeline]

Reference