问题标签 [aws-data-pipeline]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

71 问题

0 投票

0 回答

430 浏览

python - 通过转换步骤将文件数据从 S3 导入 RDS

我是 AWS 新手，我正在尝试解决一个用例，我需要将数据从 csv 导入到 S3 存储桶中的 RDS。

我有一个将上传到 S3 存储桶的 csv 文件，我想从那里运行一个自定义 Python 脚本来针对该数据运行，该脚本将针对数据构建一组指标/评分。接下来，我想从 Python 脚本转换输出数据（以构建多个表），并将其加载到表中以适合我的 RDS 数据库模式。

我查看了 AWS Data Pipeline 和 AWS Glue，但不太确定要使用哪些服务。任何想法将不胜感激。

2018-11-17T21:20:24.033

0 投票

1 回答

35 浏览

amazon-web-services - 如何将一个 AWS 账户中的用户访问权限授予另一个账户中的 AWS 数据管道？

我有两个aws帐户。我在账户 a 中有一个用户，该用户需要对账户 B 中的 aws 数据管道具有完全访问权限。如何实现这一点？

我已将策略附加到账户 A 中的用户以访问数据管道。

但是如何将策略附加到账户 B 中的数据管道，以便它接受来自账户 A 的该用户的请求？

amazon-web-services aws-data-pipeline

2018-11-26T14:20:22.250

0 投票

1 回答

53 浏览

amazon-web-services - 处理传递给 AWS 数据管道中的 SQL 活动的参数

我正在使用 AWS 数据管道。在这种情况下，我将几个参数从管道定义传递到 sql 文件，如下所示：

我的 sql 文件如下所示：

在上面的 sql 中，我不知道如何从 RUN_DATE 实现 (1)、(2) 和 (3)。

所以如果 RUN_DATE=20190101，那么 (1) 中的值应该是 "20181231"，(2) 中的值应该是 "2018-12-01" 并且 (3) 应该是 "2018-12-31" 。

amazon-web-services hive hiveql aws-data-pipeline

2019-01-22T10:40:48.640

0 投票

2 回答

2059 浏览

amazon-web-services - AWS Data Pipeline：IAM 角色的权限 S3 访问问题

我正在使用Load S3 data into RDS MySql tableAWS Data Pipeline 中的模板将 csv 从 S3 存储桶导入我们的 RDS MySql。但是我（作为具有完全管理员权限的 IAM 用户）遇到了我无法解决的警告：

对象：Ec2Instance - 警告：无法验证角色的 S3 访问权限。请确保角色 ('DataPipelineDefaultRole') 具有 DataPipeline 的 s3:Get*、s3:List*、s3:Put* 和 sts:AssumeRole 权限。

谷歌告诉我不要对DataPipelineDefaultRoleand使用默认策略DataPipelineDefaultResourceRole。根据AWS Data Pipeline 的 IAM 角色文档和此 AWS 支持论坛上的主题，我使用了内联策略并编辑了这两个角色的信任关系。

政策DataPipelineDefaultRole：

信任关系DataPipelineDefaultRole：

政策DataPipelineDefaultResourceRole：

信任关系DataPipelineDefaultResourceRole：

我尝试了几个选项/组合，但警告仍然存在。有谁知道如何解决这个权限问题？

amazon-web-services amazon-s3 amazon-ec2 amazon-data-pipeline aws-data-pipeline

2019-02-01T09:27:15.440

0 投票

2 回答

458 浏览

pyspark - Spark Streaming 调度最佳实践

我们有一个 Spark Streaming 作业，每 30 分钟运行一次，需要 15 秒才能完成。在这种情况下建议的最佳做法是什么。我想我可以安排 AWS 数据管道每 30 分钟运行一次，以便 EMR 在 15 秒后终止并重新创建。这是推荐的方法吗？

pyspark spark-streaming amazon-emr amazon-kinesis aws-data-pipeline

2019-02-03T02:58:58.050

0 投票

1 回答

90 浏览

sql-server - AWS DataPipeline 使用 SQLActivity 插入状态

我正在寻找一种在数据库表中记录管道状态的方法。假设这是一个非常常见的用例。有什么方法可以录制

完成管道的状态和时间。
选定的个别活动的完成状态和时间。
单个运行/执行的 ID。

我发现的唯一方法是使用依赖于单个活动的 SQLActivity，但即使在那里我也无法访问父/节点的状态或时间戳。

我正在使用 jdbc 连接来连接到远程 SQLServer。管道用于将 S3 文件复制到 SQLServer DB 中。

sql-server amazon-web-services aws-data-pipeline

2019-02-19T21:52:11.587

0 投票

2 回答

447 浏览

amazon-web-services - AWS 数据管道：将数据转储到 3 个 s3 节点

我有一个用例，我想从 DynamoDB 中获取数据并对数据进行一些转换。在此之后，我想创建 3 个 csv 文件（同一数据将进行 3 次转换）并将它们转储到 3 个不同的 s3 位置。我的架构将如下所示：

有可能这样做吗？我似乎找不到任何有关它的文档。如果无法使用管道，是否有任何其他服务可以帮助我处理我的用例？

这些转储将每天安排。我的另一个考虑是使用 aws lamda。但是根据我的理解，它是基于事件的触发而不是基于时间的调度，对吗？

amazon-web-services aws-lambda aws-data-pipeline

2019-02-22T05:47:24.077

0 投票

1 回答

6464 浏览

amazon-web-services - AWS Data Pipeline 与 Step Functions

我正在解决一个问题，我们打算使用 EMR (SparkSQL) 对数据执行多次转换。

在浏览了 AWS Data Pipelines 和 AWS Step Functions 的文档后，我对它们各自试图解决的用例感到有些困惑。我环顾四周，但没有找到两者之间的权威比较。有多个资源展示了我如何使用它们来调度和触发 EMR 集群上的 Spark 作业。

我应该使用哪一个来安排和编排我的 EMR 处理作业？
更一般地说，就 ETL/数据处理而言，在什么情况下一种比另一种更好？

amazon-web-services aws-step-functions aws-data-pipeline

2019-03-08T10:50:23.647

0 投票

2 回答

520 浏览

mysql - AWS MySQL to GCP BigQuery data migration

I'm planning a Data Migration from AWS MySQL instances to GCP BigQuery. I don't want to migrate every MySQL Database because finally I want to create a Data Warehouse using BigQuery.

Would exporting AWS MySQL DB to S3 buckets as csv/json/avro, then transfer to GCP buckets be a good option? What would be the best practices for this Data pipeline?

mysql amazon-web-services google-cloud-platform google-bigquery aws-data-pipeline

2019-03-10T14:11:50.080

0 投票

1 回答

103 浏览

aws-data-pipeline - 有没有人在数据管道中使用 AWS 系统管理器参数来为管道中的参数分配值？

我尝试了这个，我在 AWS 参数中创建了一个变量，并且能够在 AWS CLI 中使用此命令检索该值，但无法检索该值并将其发送到我的管道中。

aws-data-pipeline

2019-03-14T18:54:16.773

1 2 3 4 5 6 7 8 9 10

问题标签 [aws-data-pipeline]

Reference