“amazon-data-pipeline”的相关标签问题

0 投票

5 回答

8412 浏览

postgresql - Amazon Redshift：在数据库之间复制数据

我希望在 Amazon Redshift 上的数据库中复制数据。在此之前，我将数据从 Redshift 数据库复制到托管在 EC2 实例上的 PostgreSQL 以进行分析。我有 ruby 脚本，可以使用 dblink EXTENSION 来完成。

但现在由于数据在 PostgreSQL 实例上无法管理，我们决定将数据复制到同一 Redshift 集群上的单独数据库中。

撞！我发现 dblink 不适用于 Postgre 8.0（Redshift 版本）。有没有办法让我在 Redshift 上工作。

我不想使用 Copy 命令并在中间甚至数据管道之间添加一层 S3。你看，它是同一个集群，只是不同的数据库。

万一没有其他办法，我应该使用数据管道还是复制到 S3，然后再回到 Redshift。还是最终本质上是一样的？

PS任何帮助/线索将不胜感激。我会努力工作。只需要提个醒。

2015-06-01T12:50:14.053

0 投票

2 回答

2429 浏览

amazon-web-services - 如何在 AWS Data Pipeline 的控制台中创建参数

我想在 AWS DataPipeline 的控制台中定义一些参数，但无法这样做。这些参数将在 SqlActivity 中调用，因此当我尝试在内联 SQL 脚本中引用它们并保存管道时，我收到错误消息，指出不存在此类参数。参数页面是空白的，我找不到制作一个的按钮。谷歌结果都向我展示了如何创建参数化管道，这不是我想要的

amazon-web-services amazon-data-pipeline

2015-06-08T16:33:43.157

0 投票

1 回答

1206 浏览

amazon-web-services - 当我将数据从 DynamoDb 传输到 S3 时，Data Pipeline 备份出错

我必须将我的 DynamoDb 表备份到 S3 中，但是当我启动此服务时，我在尝试三次后收到此错误：

private.com.amazonaws.AmazonServiceException：用户：arn:aws:sts::769870455028:assumed-role/DataPipelineDefaultResourceRole/i-3678d99c 无权执行：elasticmapreduce:ModifyInstanceGroups（服务：AmazonElasticMapReduce；状态代码：400；错误代码： AccessDeniedException；请求 ID：9065ea77-0f95-11e5-8f35-39a70915a1ef) 在 private.com.amazonaws.http.AmazonHttpClient.handleErrorResponse(AmazonHttpClient.java:1077) 在 private.com.amazonaws.http.AmazonHttpClient.executeOneRequest(AmazonHttpClient.java :725) 在 private.com.amazonaws.http.AmazonHttpClient.execute(AmazonHttpClient.java:295) 在 private.com.amazonaws.services 的 private.com.amazonaws.http.AmazonHttpClient.executeHelper(AmazonHttpClient.java:460)。 elasticmapreduce.AmazonElasticMapReduceClient.invoke(AmazonElasticMapReduceClient.java:1391) 在 private.com.amazonaws.services.elasticmapreduce.AmazonElasticMapReduceClient.modifyInstanceGroups(AmazonElasticMapReduceClient.java:785) 在 sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 在 sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)在 sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 在 java.lang.reflect.Method.invoke(Method.java:606) 在 private.com.amazonaws.services.datapipeline.retrier.RetryProxy.invokeInternal(RetryProxy .java:36) 在private.com.amazonaws.services.datapipeline.retrier.RetryProxy.invoke(RetryProxy.java:48) 在 com.sun.proxy.$Proxy33.modifyInstanceGroups(Unknown Source) 在 amazonaws.datapipeline.cluster。 EmrUtil.acquireCoreNodes(EmrUtil.java:325) 在 amazonaws.datapipeline.activity.AbstractClusterActivity。resizeIfRequired(AbstractClusterActivity.java:47) at amazonaws.datapipeline.activity.AbstractHiveActivity.runActivity(AbstractHiveActivity.java:113) at amazonaws.datapipeline.objects.AbstractActivity.run(AbstractActivity.java:16) at amazonaws.datapipeline.taskrunner.TaskPoller .executeRemoteRunner(TaskPoller.java:132) at amazonaws.datapipeline.taskrunner.TaskPoller.executeTask(TaskPoller.java:101) at amazonaws.datapipeline.taskrunner.TaskPoller$1.run(TaskPoller.java:77) at private.com.amazonaws .services.datapipeline.poller.PollWorker.executeWork(PollWorker.java:76) 在 private.com.amazonaws.services.datapipeline.poller.PollWorker.run(PollWorker.java:53) 在 java.lang.Thread.run(Thread .java:745)runActivity(AbstractHiveActivity.java:113) at amazonaws.datapipeline.objects.AbstractActivity.run(AbstractActivity.java:16) at amazonaws.datapipeline.taskrunner.TaskPoller.executeRemoteRunner(TaskPoller.java:132) at amazonaws.datapipeline.taskrunner.TaskPoller .executeTask(TaskPoller.java:101) at amazonaws.datapipeline.taskrunner.TaskPoller$1.run(TaskPoller.java:77) at private.com.amazonaws.services.datapipeline.poller.PollWorker.executeWork(PollWorker.java:76)在 private.com.amazonaws.services.datapipeline.poller.PollWorker.run(PollWorker.java:53) 在 java.lang.Thread.run(Thread.java:745)runActivity(AbstractHiveActivity.java:113) at amazonaws.datapipeline.objects.AbstractActivity.run(AbstractActivity.java:16) at amazonaws.datapipeline.taskrunner.TaskPoller.executeRemoteRunner(TaskPoller.java:132) at amazonaws.datapipeline.taskrunner.TaskPoller .executeTask(TaskPoller.java:101) at amazonaws.datapipeline.taskrunner.TaskPoller$1.run(TaskPoller.java:77) at private.com.amazonaws.services.datapipeline.poller.PollWorker.executeWork(PollWorker.java:76)在 private.com.amazonaws.services.datapipeline.poller.PollWorker.run(PollWorker.java:53) 在 java.lang.Thread.run(Thread.java:745)TaskPoller.executeTask(TaskPoller.java:101) at amazonaws.datapipeline.taskrunner.TaskPoller$1.run(TaskPoller.java:77) at private.com.amazonaws.services.datapipeline.poller.PollWorker.executeWork(PollWorker.java:76 ) 在 private.com.amazonaws.services.datapipeline.poller.PollWorker.run(PollWorker.java:53) 在 java.lang.Thread.run(Thread.java:745)TaskPoller.executeTask(TaskPoller.java:101) at amazonaws.datapipeline.taskrunner.TaskPoller$1.run(TaskPoller.java:77) at private.com.amazonaws.services.datapipeline.poller.PollWorker.executeWork(PollWorker.java:76 ) 在 private.com.amazonaws.services.datapipeline.poller.PollWorker.run(PollWorker.java:53) 在 java.lang.Thread.run(Thread.java:745)

如何进行备份？有人有这个错误吗？谢谢

编辑：新政策

{“版本”：“2012-10-17”，“声明”：[{“效果”：“允许”，“操作”：[“s3：”，“dynamodb： ”，“ec2：Describe*”，“ elasticmapreduce:Describe*”、“elasticmapreduce:ListInstance*”、“elasticmapreduce:AddJobFlowSteps”、“elasticmapreduce: ”、“rds:Describe ”、 “datapipeline:” 、“cloudwatch:”、“redshift:DescribeClusters”、“redshift :DescribeClusterSecurityGroups"、"sdb: "、"sns: "、"sqs:" ], "资源": [ " " ] } ]

这是新的例外：

Error during job, obtaining debugging information... Examining task ID: task_1434014832347_0001_m_000008 (and more) from job job_1434014832347_0001 Examining task ID: task_1434014832347_0001_m_000013 (and more) from job job_1434014832347_0001 Examining task ID: task_1434014832347_0001_m_000005 (and more) from job job_1434014832347_0001 Examining task ID: task_1434014832347_0001_m_000034 (and more) from job job_1434014832347_0001 Examining task ID: task_1434014832347_0001_m_000044 (and more) from job job_1434014832347_0001 Examining task ID: task_1434014832347_0001_m_000004 (and more) from job job_1434014832347_0001 Task with the most failures(4): ----- Task ID: task_1434014832347_0001_m_000002网址：http://ip-10-37-138-149.eu-west-1.compute.internal:9026/taskdetails.jsp?jobid=job_1434014832347_0001&tipid=task_1434014832347_0001_m_000002 -----此任务的诊断消息：错误：Java堆space FAILED: 执行错误，从 org.apache.hadoop.hive.ql.exec.mr.MapRedTask MapReduce Jobs 返回代码 2

amazon-web-services amazon-s3 backup amazon-dynamodb amazon-data-pipeline

2015-06-10T18:20:58.230

0 投票

1 回答

113 浏览

amazon-web-services - aws datapipeline 调度如何工作

我注意到 AWS 数据管道的一些奇怪行为。是在Execution start time之前scheduled start time。请参阅下面的屏幕截图。

我在这里错过了什么吗？

这是 AWS 数据管道可接受的行为吗？避免这种情况的推荐方法是什么？

数据管道控制台

amazon-web-services amazon-data-pipeline

2015-06-14T03:46:02.210

0 投票

1 回答

386 浏览

amazon-web-services - 在 AWS DataPipeline 中创建电子邮件警报

我知道 AWS Data Pipeline 支持并允许 SNS 警报，但我希望在查询返回任何内容时发送警报或电子邮件。基本上，我想运行一个非常简单的选择查询的 SQLActivity，如果该查询返回任何内容，我想发送电子邮件警报。这可能吗？如果是这样，我可以发送带有返回数据集的电子邮件吗？

amazon-web-services amazon-data-pipeline

2015-06-15T16:56:33.300

0 投票

2 回答

1330 浏览

amazon-web-services - 在 DynamoDB 表备份期间限制 AWS 数据管道使用的 EC2 资源

我需要每隔几个小时备份 6 个 DynamoDB 表。我从模板创建了 6 个管道，它运行得很好，除了它创建了 6 个或更多的虚拟机，这些虚拟机大部分都在运行。这不是我能承受的经济。

有没有人有优化这种场景的经验？

amazon-web-services amazon-dynamodb amazon-data-pipeline

2015-06-17T15:57:32.603

0 投票

1 回答

871 浏览

amazon-web-services - 使用 boto 为 RedShiftCopyActivity 创建 AWS 数据管道

我正在尝试将数据从 s3 移动到 redshift 中，并希望对 redshift 中的主键强制唯一性。我意识到复制命令本身不能做到这一点。但是，我注意到通过 AWS 数据管道可用的 RedshiftCopyActivity 允许使用“OVERWRITE_EXISTING”标志，这将允许至少以某种方式强制执行主键。

我想知道是否可以使用 boto 来实现这一点，以及是否有人可以为我指出这种用法的示例。

amazon-web-services amazon-s3 boto amazon-redshift amazon-data-pipeline

2015-06-26T22:56:49.367

0 投票

3 回答

1510 浏览