问题标签 [aws-data-pipeline]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
430 浏览

python - 通过转换步骤将文件数据从 S3 导入 RDS

我是 AWS 新手,我正在尝试解决一个用例,我需要将数据从 csv 导入到 S3 存储桶中的 RDS。

我有一个将上传到 S3 存储桶的 csv 文件,我想从那里运行一个自定义 Python 脚本来针对该数据运行,该脚本将针对数据构建一组指标/评分。接下来,我想从 Python 脚本转换输出数据(以构建多个表),并将其加载到表中以适合我的 RDS 数据库模式。

我查看了 AWS Data Pipeline 和 AWS Glue,但不太确定要使用哪些服务。任何想法将不胜感激。

0 投票
1 回答
35 浏览

amazon-web-services - 如何将一个 AWS 账户中的用户访问权限授予另一个账户中的 AWS 数据管道?

我有两个aws帐户。我在账户 a 中有一个用户,该用户需要对账户 B 中的 aws 数据管道具有完全访问权限。如何实现这一点?

我已将策略附加到账户 A 中的用户以访问数据管道。

但是如何将策略附加到账户 B 中的数据管道,以便它接受来自账户 A 的该用户的请求?

0 投票
1 回答
53 浏览

amazon-web-services - 处理传递给 AWS 数据管道中的 SQL 活动的参数

我正在使用 AWS 数据管道。在这种情况下,我将几个参数从管道定义传递到 sql 文件,如下所示:

我的 sql 文件如下所示:

在上面的 sql 中,我不知道如何从 RUN_DATE 实现 (1)、(2) 和 (3)。

所以如果 RUN_DATE=20190101,那么 (1) 中的值应该是 "20181231",(2) 中的值应该是 "2018-12-01" 并且 (3) 应该是 "2018-12-31" 。

0 投票
2 回答
2059 浏览

amazon-web-services - AWS Data Pipeline:IAM 角色的权限 S3 访问问题

我正在使用Load S3 data into RDS MySql tableAWS Data Pipeline 中的模板将 csv 从 S3 存储桶导入我们的 RDS MySql。但是我(作为具有完全管理员权限的 IAM 用户)遇到了我无法解决的警告:

对象:Ec2Instance - 警告:无法验证角色的 S3 访问权限。请确保角色 ('DataPipelineDefaultRole') 具有 DataPipeline 的 s3:Get*、s3:List*、s3:Put* 和 sts:AssumeRole 权限。

谷歌告诉我不要对DataPipelineDefaultRoleand使用默认策略DataPipelineDefaultResourceRole。根据AWS Data Pipeline 的 IAM 角色文档和此 AWS 支持论坛上的主题,我使用了内联策略并编辑了这两个角色的信任关系。

政策DataPipelineDefaultRole

信任关系DataPipelineDefaultRole

政策DataPipelineDefaultResourceRole

信任关系DataPipelineDefaultResourceRole

我尝试了几个选项/组合,但警告仍然存在。有谁知道如何解决这个权限问题?

0 投票
2 回答
458 浏览

pyspark - Spark Streaming 调度最佳实践

我们有一个 Spark Streaming 作业,每 30 分钟运行一次,需要 15 秒才能完成。在这种情况下建议的最佳做法是什么。我想我可以安排 AWS 数据管道每 30 分钟运行一次,以便 EMR 在 15 秒后终止并重新创建。这是推荐的方法吗?

0 投票
1 回答
90 浏览

sql-server - AWS DataPipeline 使用 SQLActivity 插入状态

我正在寻找一种在数据库表中记录管道状态的方法。假设这是一个非常常见的用例。有什么方法可以录制

  1. 完成管道的状态和时间。
  2. 选定的个别活动的完成状态和时间。
  3. 单个运行/执行的 ID。

我发现的唯一方法是使用依赖于单个活动的 SQLActivity,但即使在那里我也无法访问父/节点的状态或时间戳。

我正在使用 jdbc 连接来连接到远程 SQLServer。管道用于将 S3 文件复制到 SQLServer DB 中。

0 投票
2 回答
447 浏览

amazon-web-services - AWS 数据管道:将数据转储到 3 个 s3 节点

我有一个用例,我想从 DynamoDB 中获取数据并对数据进行一些转换。在此之后,我想创建 3 个 csv 文件(同一数据将进行 3 次转换)并将它们转储到 3 个不同的 s3 位置。我的架构将如下所示: 在此处输入图像描述

有可能这样做吗?我似乎找不到任何有关它的文档。如果无法使用管道,是否有任何其他服务可以帮助我处理我的用例?

这些转储将每天安排。我的另一个考虑是使用 aws lamda。但是根据我的理解,它是基于事件的触发而不是基于时间的调度,对吗?

0 投票
1 回答
6464 浏览

amazon-web-services - AWS Data Pipeline 与 Step Functions

我正在解决一个问题,我们打算使用 EMR (SparkSQL) 对数据执行多次转换。

在浏览了 AWS Data Pipelines 和 AWS Step Functions 的文档后,我对它们各自试图解决的用例感到有些困惑。我环顾四周,但没有找到两者之间的权威比较。有多个资源展示了我如何使用它们来调度和触发 EMR 集群上的 Spark 作业。

  1. 我应该使用哪一个来安排和编排我的 EMR 处理作业?

  2. 更一般地说,就 ETL/数据处理而言,在什么情况下一种比另一种更好?

0 投票
2 回答
520 浏览

mysql - AWS MySQL to GCP BigQuery data migration

I'm planning a Data Migration from AWS MySQL instances to GCP BigQuery. I don't want to migrate every MySQL Database because finally I want to create a Data Warehouse using BigQuery.

Would exporting AWS MySQL DB to S3 buckets as csv/json/avro, then transfer to GCP buckets be a good option? What would be the best practices for this Data pipeline?

0 投票
1 回答
103 浏览

aws-data-pipeline - 有没有人在数据管道中使用 AWS 系统管理器参数来为管道中的参数分配值?

我尝试了这个,我在 AWS 参数中创建了一个变量,并且能够在 AWS CLI 中使用此命令检索该值,但无法检索该值并将其发送到我的管道中。