问题标签 [aws-data-pipeline]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 通过转换步骤将文件数据从 S3 导入 RDS
我是 AWS 新手,我正在尝试解决一个用例,我需要将数据从 csv 导入到 S3 存储桶中的 RDS。
我有一个将上传到 S3 存储桶的 csv 文件,我想从那里运行一个自定义 Python 脚本来针对该数据运行,该脚本将针对数据构建一组指标/评分。接下来,我想从 Python 脚本转换输出数据(以构建多个表),并将其加载到表中以适合我的 RDS 数据库模式。
我查看了 AWS Data Pipeline 和 AWS Glue,但不太确定要使用哪些服务。任何想法将不胜感激。
amazon-web-services - 如何将一个 AWS 账户中的用户访问权限授予另一个账户中的 AWS 数据管道?
我有两个aws帐户。我在账户 a 中有一个用户,该用户需要对账户 B 中的 aws 数据管道具有完全访问权限。如何实现这一点?
我已将策略附加到账户 A 中的用户以访问数据管道。
但是如何将策略附加到账户 B 中的数据管道,以便它接受来自账户 A 的该用户的请求?
amazon-web-services - 处理传递给 AWS 数据管道中的 SQL 活动的参数
我正在使用 AWS 数据管道。在这种情况下,我将几个参数从管道定义传递到 sql 文件,如下所示:
我的 sql 文件如下所示:
在上面的 sql 中,我不知道如何从 RUN_DATE 实现 (1)、(2) 和 (3)。
所以如果 RUN_DATE=20190101,那么 (1) 中的值应该是 "20181231",(2) 中的值应该是 "2018-12-01" 并且 (3) 应该是 "2018-12-31" 。
amazon-web-services - AWS Data Pipeline:IAM 角色的权限 S3 访问问题
我正在使用Load S3 data into RDS MySql table
AWS Data Pipeline 中的模板将 csv 从 S3 存储桶导入我们的 RDS MySql。但是我(作为具有完全管理员权限的 IAM 用户)遇到了我无法解决的警告:
对象:Ec2Instance - 警告:无法验证角色的 S3 访问权限。请确保角色 ('DataPipelineDefaultRole') 具有 DataPipeline 的 s3:Get*、s3:List*、s3:Put* 和 sts:AssumeRole 权限。
谷歌告诉我不要对DataPipelineDefaultRole
and使用默认策略DataPipelineDefaultResourceRole
。根据AWS Data Pipeline 的 IAM 角色文档和此 AWS 支持论坛上的主题,我使用了内联策略并编辑了这两个角色的信任关系。
政策DataPipelineDefaultRole
:
信任关系DataPipelineDefaultRole
:
政策DataPipelineDefaultResourceRole
:
信任关系DataPipelineDefaultResourceRole
:
我尝试了几个选项/组合,但警告仍然存在。有谁知道如何解决这个权限问题?
pyspark - Spark Streaming 调度最佳实践
我们有一个 Spark Streaming 作业,每 30 分钟运行一次,需要 15 秒才能完成。在这种情况下建议的最佳做法是什么。我想我可以安排 AWS 数据管道每 30 分钟运行一次,以便 EMR 在 15 秒后终止并重新创建。这是推荐的方法吗?
sql-server - AWS DataPipeline 使用 SQLActivity 插入状态
我正在寻找一种在数据库表中记录管道状态的方法。假设这是一个非常常见的用例。有什么方法可以录制
- 完成管道的状态和时间。
- 选定的个别活动的完成状态和时间。
- 单个运行/执行的 ID。
我发现的唯一方法是使用依赖于单个活动的 SQLActivity,但即使在那里我也无法访问父/节点的状态或时间戳。
我正在使用 jdbc 连接来连接到远程 SQLServer。管道用于将 S3 文件复制到 SQLServer DB 中。
amazon-web-services - AWS Data Pipeline 与 Step Functions
我正在解决一个问题,我们打算使用 EMR (SparkSQL) 对数据执行多次转换。
在浏览了 AWS Data Pipelines 和 AWS Step Functions 的文档后,我对它们各自试图解决的用例感到有些困惑。我环顾四周,但没有找到两者之间的权威比较。有多个资源展示了我如何使用它们来调度和触发 EMR 集群上的 Spark 作业。
我应该使用哪一个来安排和编排我的 EMR 处理作业?
更一般地说,就 ETL/数据处理而言,在什么情况下一种比另一种更好?
mysql - AWS MySQL to GCP BigQuery data migration
I'm planning a Data Migration from AWS MySQL instances to GCP BigQuery. I don't want to migrate every MySQL Database because finally I want to create a Data Warehouse using BigQuery.
Would exporting AWS MySQL DB to S3 buckets as csv/json/avro, then transfer to GCP buckets be a good option? What would be the best practices for this Data pipeline?
aws-data-pipeline - 有没有人在数据管道中使用 AWS 系统管理器参数来为管道中的参数分配值?
我尝试了这个,我在 AWS 参数中创建了一个变量,并且能够在 AWS CLI 中使用此命令检索该值,但无法检索该值并将其发送到我的管道中。