问题标签 [amazon-data-pipeline]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
172 浏览

regex - Amazon DataPipeline 正则表达式格式

我试图从 Amazon S3 存储桶中解析大量日志。

到目前为止,我创建并配置了一个示例管道,如教程视频中所述。但是由于某种原因,我的 RegEx 在管道被激活后被搞砸了。

最初,正则表达式是:

保存后它变成了

这显然对我所知道的任何正则表达式都没有任何意义)

那么有人可以向我解释一下 - 为 DataPipe 组件编写正则表达式的正确形式是什么?

0 投票
4 回答
3018 浏览

amazon-web-services - 我是否需要每天为 AWS Dynamo DB 设置备份数据管道?

我正在考虑将 AWS DynamoDB 用于我们正在构建的应用程序。我了解设置将数据从 DynamoDB 导出到 S3 的备份作业涉及使用 EMR 的数据管道。但我的问题是我是否需要担心在第一天设置备份作业?发生数据丢失的可能性有多大?

0 投票
1 回答
11542 浏览

amazon-web-services - S3 转 Redshift 输入数据格式

我正在尝试运行一个简单的链 s3-pipeline-redshift,但我完全被输入数据格式所困扰。这是我的文件:

1,Toyota Park,Bridgeview,IL
2,Columbus Crew Stadium,Columbus,OH
3,RFK Stadium,Washington,DC
4,CommunityAmerica Ballpark,Kansas City,KS
5,Gillette Stadium,Foxborough,MA
6,New York Giants Stadium,East Rutherford,NJ
7,BMO Field,Toronto,ON
8,The Home Depot Centre,Carson,CA
9,Dick's Sporting Goods Park,Commerce City,CO
10,Pizza Hut Park,Frisco,TX

这是我正在使用的表格:

当我使用 | 作为分隔符,我收到错误 1214 - Delimiter not found ,当我使用逗号时 - 同样的事情,当我将文件转换为 utf-8 时,我得到“无效的数字,值'。',Pos 0,类型:短'。我的想法用完了。那件事到底有什么问题?有人可以给我输入文件的例子或告诉我做错了什么吗?提前谢谢。PS我还发现示例文件是在存储桶 awssampledb 中可用,但我不知道如何获取它们。

0 投票
1 回答
108 浏览

amazon-redshift - 来自多个输入文件的填充表

我有以下场景:几个 csv 文件包含同一个表的不同列。我可以以某种方式从它们中填充红移表吗,理想情况下,在数据管道的帮助下?我找不到实现这一目标的方法。如果可能的话,任何人都可以提供解决方案或简单的例子吗?

0 投票
1 回答
769 浏览

amazon-web-services - 调度 EMR 集群

我已经使用 HIVE 和 PIG 构建并存储了我希望每周运行的查询。这些脚本创建 S3 文件并更新 DynamoTables。我可以使用什么来创建 AmazonEMR 集群以按计划自动运行这些脚本。

我在考虑 AWS Data Pipeline,但它似乎需要创建数据节点,我认为这对于我的目的来说是不必要的。

0 投票
2 回答
3019 浏览

amazon-web-services - 亚马逊 AWS:DataPipelineDefaultRole/EDPSession 未授权执行 iam:ListRolePolicies

我的经理已在 AWS 中为我​​分配了一个 IAM 角色,我正在尝试设置一个 Amazon Data Pipeline。在尝试激活 PipeLine 时,我反复面临以下权限问题和授权问题。

警告:验证角色“DataPipelineDefaultRole”时发生错误。错误:状态代码:403,AWS 服务:AmazonIdentityManagement,AWS 请求 ID:fbf1935a-bcf1-11e3-82d4-cd47aac2f228,AWS 错误代码:AccessDenied,AWS 错误消息:用户:arn:aws:sts::723751385540:assumed-role /DataPipelineDefaultRole/EDPSession 无权执行:iam:ListRolePolicies 资源:角色 DataPipelineDefaultRole

没有错误......只有上面的警告。

我的 CTO 已在 AWS 访问管理器中为我分配了超级管理员角色。然而我做不到。至少有 2 周的时间,我们正在解决这个问题。他已将所有超级管理员权限和特权授予我的 IAM。

ps 我遵循了来自http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-copydata-mysql-console.html的“使用 AWS Data Pipeline 控制台通过 CopyActivity 将 RDS 数据导出到 S3 ”教程的文档

0 投票
2 回答
2041 浏览

amazon-redshift - 对 SQL Server RDS 的 AWS 数据管道支持

我正在尝试查找有关 AWS Data Pipeline 支持的数据源的文档。我需要做的是将 SQL Server RDS 数据导出到 S3。我发现大量文档说 Data Pipeline 可以使用 RDS 作为源,但我看到的每个示例都仅适用于 MySQL RDS。

有人有使用 Data Pipeline 和 SQL Server RDS 的经验吗?如果是这样,您使用什么数据节点连接到 SQL Server RDS(例如 MySqlDataNode、SqlDataNode)?

最终目标是将数据从 SQL Server RDS 移动到 AWS Red Shift。

谢谢

0 投票
1 回答
209 浏览

amazon-web-services - 带有 ShelCommandlActivity 的 Hello World 管道

我正在尝试使用 ShellCommandActivity 类型的单个 Activity 创建一个简单的 dataFlow 管道。我附上了活动和 ec2 资源的配置。

当我执行此操作时,Ec2Resource 处于 WAITING_ON_DEPENDENCIES 状态,然后在一段时间后更改为 TIMEDOUT。ShellCommandActivity 始终处于 CANCELED 状态。我看到实例启动和终止状态的快速更改。

我指定了一个 s3 日志文件 url,但它永远不会更新。

任何人都可以给我任何指示吗?还有关于调试的任何指导吗?

谢谢!!

在此处输入图像描述 在此处输入图像描述

0 投票
1 回答
1175 浏览

amazon-web-services - How to use scriptVariables in hive (AWS Data Pipeline)

We can pass script variables into AWS data pipeline hiveactivity using the following construct :

How do we access these variables in the hive script? I have been trying to use them in a select statement without any success :

My knowledge of hive is limited. Any help with this will be greatly appreciated. Thanks.

0 投票
1 回答
378 浏览

sql - DynamoDB 跨区域增量复制的失败管道

我正在尝试实现从 us-east-1 到 us-west-1 的跨区域复制。

我使用 Amazon Data Pipeline 中的跨区域复制模板每隔几个小时复制一个表,但是我无法让增量复制工作。我必须填写 DefaultHiveCopyActivity1 下的活动下的过滤 SQL 字段。该表包含一个名为 timestamp 的列,它是一个格式为 yyyy-MM-dd HH:mm:ss.SSS 的字符串,其中包含请求的时间。

我一直在尝试将字符串转换为 unix_timestamp 并从 unix_timestamp 的当前值中减去 7200(因为管道活动应该每两小时运行一次,因此在表中找到时间戳为 2 小时前的每条记录)。我使用此过滤器 SQL 字段值:unix_timestamp(timestamp, "yyyy-MM-dd HH:mm:ss.SSS") > unix_timestamp() - 7200 管道失败。

我什至尝试检查一个简单的请求,例如将以下内容放入 Filter SQL 字段(它自己添加反斜杠):timestamp = \"2014-04-30 22:55:41.301\"- 根据我应该输入的文档:一个 Hive SQL 语句片段,用于过滤要复制的 DynamoDB 或 Amazon S3 数据。过滤器应仅包含谓词,而不应以 WHERE 子句开头,因为 AWS Data Pipeline 会自动添加它。即使表中有具有该确切值的记录,此管道也会失败。但是,从一个区域到另一个区域的完整表副本没有 SQL 过滤器可以正常工作。

这是我得到的错误:FAILED: Parse Error: line 2:131 cannot recognize input near 'timestamp' ',' '"yyyy-MM-dd HH:mm:ss.SSS"' in function specification

http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-template-crossregionddbcopy.html http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-hivecopyactivity.html