问题标签 [aws-data-pipeline]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

71 问题

0 投票

2 回答

6053 浏览

amazon-web-services - 调度从 AWS Redshift 到 S3 的数据提取

我正在尝试构建一个从 Redshift 提取数据并将相同数据写入 S3 存储桶的工作。到目前为止，我已经探索了 AWS Glue，但 Glue 无法在 redshift 上运行自定义 sql。我知道我们可以运行卸载命令并且可以直接存储到 S3。我正在寻找一种可以在 AWS 中进行参数化和安排的解决方案。

2017-11-15T10:23:45.803

0 投票

1 回答

981 浏览

amazon-web-services - 使用 AWS 数据管道将 csv 文件从 S3 加载到 RDS Mysql

我是 AWS 新手，尝试使用数据管道“将 S3 数据加载到 RDS mysql 表”模板将数据从 csv 文件加载到 RDS MySQL。但是出现错误“找不到数据库的DriverClass：aurora”。尝试将 JDBC uri 属性指向 s3 中的驱动程序 jar。

谢谢！

amazon-web-services amazon-data-pipeline aws-data-pipeline

2018-05-18T21:32:16.730

0 投票

1 回答

249 浏览

mysql - AWS Data Pipeline 的默认日期时间

我们正在使用数据管道将数据从 s3 推送到 amazon redshift 表。我们正在使用 JSON 推送数据

我最近想在我的 redshift 表中添加 created_at 应该采用当前时间戳。我已经在我的 redshift 表中添加了带有默认值的列到当前时间戳。我没有在这个列的 json 映射文件中定义（原因很明显）。但是管道失败，说明列数和 json 映射不匹配。已尝试阅读多个文档，但没有得到适当的解决方案。谁能帮助我了解如何使用 aws 数据管道将默认当前时间戳从 s3 插入红移表？

mysql amazon-web-services amazon-redshift amazon-data-pipeline aws-data-pipeline

2018-06-21T07:07:04.430

0 投票

1 回答

1658 浏览

amazon-web-services - 当 S3 存储桶中的对象大小超过阈值时发出警报

我有提供给我的 S3 存储桶的 AWS 数据管道设置。每次管道生成一个新的提要文件并存储在存储桶中。我们在存储桶中最多保留 30 天的数据。是否可以配置警报，以便在生成的对象大小超过阈值（例如 1G）时通过电子邮件等通知我？我该怎么办？

amazon-web-services amazon-s3 amazon-cloudwatch aws-data-pipeline

2018-07-26T14:49:07.317

0 投票

1 回答

151 浏览

java - AWS Datapipeline 不正确的 java 版本

我正在尝试在我的数据管道中执行一个 jar 文件，它以一种方式出错，向我表明安装在我的管道中的 java 版本低于可执行 jar 所需的版本。我试图添加一个命令来更新 java 版本作为我的 shell 命令活动中的第一个命令，但活动出错并显示消息“S3 路径必须以前缀 s3://”开头。那么，如何在管道中将我的 java 版本升级到 1.8 呢？

java amazon-web-services amazon-data-pipeline data-pipeline aws-data-pipeline

2018-08-06T15:44:56.537

0 投票

1 回答

2933 浏览

amazon-web-services - 模板资源块中未解决的资源依赖项 [DefaultSchedule]

我正在使用 cloudformation 脚本来创建 AWS Data Pipeline。我已经根据文档创建了脚本，但我面临 1 个错误，即

模板验证错误：模板格式错误：模板的 Resources 块中未解决的资源依赖项 [DefaultSchedule]

这是我的脚本的资源部分：

谁能告诉我剧本是怎么回事？谢谢

amazon-web-services amazon-cloudformation aws-data-pipeline

2018-08-08T17:34:33.993

0 投票

1 回答

211 浏览

elastic-ip - 将弹性 IP 与计划的 AWS 数据管道关联

任何人都知道是否可以将弹性 IP 与预定数据管道相关联？我已将数据管道配置为每天运行。在数据管道执行期间，我需要访问 Google DB。要访问 Google DB，我应该在 DB 授权设置中添加 IP (CIDR)。但是如果没有数据管道创建的 EC2 实例的已知公共 IP，我无法对其进行配置。

因此，我需要有可能设置一次弹性 IP 以用于 EC2 实例，该实例在每次调度程序运行数据管道时由数据管道自动创建。

elastic-ip aws-data-pipeline

2018-08-21T10:38:24.060

0 投票

1 回答

412 浏览

database - AWS 将数据从一个数据库复制到另一个

所以事情是这样的，我们（在我工作的公司）有一个生产数据库（MySQL），我们想为 BI/Analytics 创建一个新的数据库（PostgreSQL）。

整个基础设施都在 AWS 上，我们必须将数据从生产环境复制到分析数据库，我想使用 AWS Glue，但它没有复制真实数据，它只是获取（甚至创建）生产环境数据库表模式。然后我发现了数据管道（也在 AWS 中），但我不知道这是我必须使用的还是我弄乱了 AWS Glue 上的爬虫配置。

我应该使用这两种产品中的哪一种来完成这项任务以及如何使用？

database amazon-web-services aws-glue aws-data-pipeline

2018-10-03T14:45:48.433

0 投票

0 回答

95 浏览

amazon-emr - 如何使用 aws 控制台在 aws 数据管道中运行多个步骤

我有一个在 EMR 上安排我的 spark 作业的用例。每次我们都会旋转一个新的集群并运行 Spark 作业。我浏览了 aws 提供的文档，但这些文档不够广泛，无法清楚地说明如何操作。如果有人知道，请与分步指南分享解决方案。

amazon-emr aws-data-pipeline

2018-10-31T06:38:35.670

0 投票

1 回答

1413 浏览

amazon-web-services - 创建 EBS 卷并将其附加到 EC2Resource i AWS Data Pipeline 的权限

我需要比 AWS 数据管道中 EC2Resources 可用的更多本地磁盘。最简单的解决方案似乎是创建和附加 EBS 卷。

我已将 EC2:CreateVolume og EC2:AttachVolume 策略添加到 DataPipelineDefaultRole 和 DataPipelineDefaultResourceRole。

我还尝试为在 shell 中具有相同权限的 IAM 角色设置 AWS_ACCESS_KEY_ID 和 AWS_SECRET_ACCESS_KEY，但可惜没有运气。

是否需要其他一些权限，是没有使用它说它使用的角色，还是根本不可能？

数据管道 ShellCommandActivity 有一个脚本 uri 指向执行此命令的 shell 脚本： aws ec2 create-volume --availability-zone eu-west-1b --size 100 --volume-type gp2 --region eu-west -1 --tag-specifications 'ResourceType=volume,Tags=[{Key= purpose,Value=unzip_file}]'

我得到的错误是：调用 CreateVolume 操作时发生错误（UnauthorizedOperation）：您无权执行此操作。

amazon-web-services amazon-iam aws-iam aws-data-pipeline

2018-11-07T13:40:47.787

1 2 3 4 5 6 7 8 9 10

问题标签 [aws-data-pipeline]

Reference