问题标签 [aws-data-pipeline]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
849 浏览

amazon-web-services - 使用 AWS Data Pipeline 将数据从 PostgreSQL 复制到 S3

我正在尝试将所有表从模式(PostgreSQL,50 多个表)复制到 Amazon S3。

做这个的最好方式是什么?我能够创建 50 种不同的复制活动,但是有没有一种简单的方法可以复制模式中的所有表或编写一个管道和循环?

0 投票
1 回答
700 浏览

aws-lambda - 将现有 DynamoDB 项目导出到 Lambda 函数

是否有任何 AWS 托管解决方案允许使用 DynamoDB 作为源和 Lambda 函数作为接收器来执行本质上是数据迁移的操作?

我正在设置一个 Lambda 来处理 DynamoDB 流,并且我希望能够使用相同的 Lambda 来处理所有现有项目,而不必在 AWS Glue 的 Spark 或 Hive 作业中重写相同的逻辑、数据管道或批处理。(我可以接受 Lambda 的输入不同于 DynamoDB 流记录——我可以在我的 Lambda 中处理它——我只是想避免在其他地方重新实现我的业务逻辑。)

我知道我可以建立自己的设置来运行全表扫描,但我也在努力避免任何无差别的繁重工作。

编辑:一种可能性是更新 DynamoDB 中的所有项目,以便触发 DynamoDB Stream 事件。但是,我的问题仍然存在 — 是否有 AWS 托管服务可以为我做到这一点?

0 投票
0 回答
233 浏览

aws-data-pipeline - 尽管将 3 小时设置为超时值,ShellCommandActivity 仍会超时

我正在使用 cloudformation 模板来启动 EC2 实例来执行 shell 脚本。

对于 EC2 资源,我将 terminateAfter 值指定为 3 小时。

同样,对于 ShellCommandActivity,我将尝试超时值指定为 3 小时。

大约一小时后,数据管道仍然处于“超时”状态。

现在,shell 脚本运行一个 python 文件,大约需要 1.5 小时才能完成。我一直在环顾四周,似乎 shell 命令的默认超时时间约为一个小时。但这似乎是在 AWS-RunShellScript 的 ssm 服务的上下文中。

cloudformation 脚本执行的命令是:

我是否应该简单地将 executiontimeout 作为参数添加到该命令中?

我很迷茫,在这里。任何帮助将不胜感激!

0 投票
0 回答
142 浏览

amazon-web-services - 数据管道:停止在 S3 中创建空文件

我正在使用 AWS 数据管道在特定条件下备份 RDS 表数据,并将该备份 CSV 文件存储在 S3 存储桶中。当有数据要备份时它工作正常,但是当没有数据时,数据管道也在 S3 中创建空文件。有没有停止在 S3 中创建空文件?

谢谢。

0 投票
1 回答
4994 浏览

amazon-s3 - 创建有权在 redshift 中查看的用户

我正在从 mysql ec2 实例中提取数据到 s3 存储桶,然后在 redshift 中创建视图。我想创建只能查询和查看在 Redshift 中专门为他们创建的某些视图的数据库用户。下面的示例代码用于创建用户、查看和授予访问权限。我遇到的问题是我还必须授予对创建视图的基础架构的访问权限,这意味着用户可以查看和查询该架构中的表。用户还可以看到数据库中的其他模式,甚至是他们无法查询的模式。有没有办法只授予用户特定视图,并使其看不到他们无权访问的其他模式?

代码:

0 投票
1 回答
83 浏览

amazon-web-services - 寻找一种更好的方法来可视化 AWS 上的数据湖管道

我正在 aws 上构建一个数据湖管道,其中包括许多 AWS 服务,如 s3、cloudwatch、lambda、glue crawler、glue job 等。管道流程的工作方式如下:

它工作正常,但我觉得很难监控整个过程。我唯一能得到的是保存在 cloudwatch 中的日志和一些通知/警报。有没有更好的方法来监控这条管道?就像在工作流程图中查看它一样查看每次执行的时间。

0 投票
0 回答
28 浏览

amazon-s3 - AWS Pipeline 中的 PigActivity 是否可以从在 S3 存储桶上创建的 Athena 表中读取架构

我有很多在本地集群上运行的遗留猪脚本,我们正在尝试迁移到 AWS 数据管道 (PigActivity) 并希望使这些猪脚本可以从我的源数据所在的 S3 存储桶中读取数据。On-Prem Pig 脚本使用 Hcatalog 加载器来读取配置单元表模式。那么,如果我在这些 S3 存储桶上创建 Athena 表,有没有办法从 pig 脚本中的那些 Athena 表中读取模式?使用某种类似于 hcatloader 的加载器?

当前:下面的代码有效,但我必须在猪脚本中定义模式

想要:改为从 Athena 表中读取

所以,寻找类似下面的东西:所以我不必在猪脚本中定义模式

是否有读取 Athena 的加载程序实用程序?或者是否有我需要的替代解决方案。请帮忙

0 投票
2 回答
992 浏览

python-3.x - 将参数传递到 AWS 数据管道 - 来自 Lambda 函数的内置模板

我想创建一个数据管道,它将由 lambda 函数调用。数据管道是“Load s3 data into RDS MYSQL”,使用AWS自己提供的模板构建。

从我的 lambda 函数中,我无法定义要发送到我的数据管道的参数。我想将以下参数从 lambda 发送到数据管道,

这怎么可能??任何帮助 lambda 的 python 代码和我的管道定义也在下面给出。

管道定义

0 投票
1 回答
891 浏览

github - 如何将 Github 与 AWS Glue 中的数据目录集成

这个问题是关于 AWS Glue 的数据目录的。

我想建立一个这样的过程:

将 Github 连接到 AWS Glue 数据目录 -> 关于数据目录代码的拉取请求(源) -> 合并 -> 在 AWS Glue 数据目录中反映修改后的代码 -> 更改的数据目录信息由 Markdown 创建。或者在 Confluence 中更新信息

这项工作的目的是使非开发人员可以阅读数据目录。

这可能吗?我应该读什么文学作品?欢迎任何建议!帮助!!

0 投票
0 回答
310 浏览

amazon-web-services - 适用于小数据的 AWS ETL 解决方案

我的目标是从 S3 文件中获取数据,转换并将其保存到数据源(可以是 dynamoDB 或 RDS)。并且文件大小将<20MB,并且可能会定期(每天一次)上传多个(~10)个此类文件。我正在考虑使用以下方法。

  1. AWS 拉姆达
  2. AWS 批处理。

理想情况下,文件处理时间应少于 15 分钟,但不能保证文件大小。所以理论上文件处理可能超出 lambda 的处理能力。所以我想到的方法是事先检查文件处理是否可以通过lambda完成。如果是,则调用 lambda。否则触发批处理作业。到目前为止,我正在考虑使用 dynamoDB,但不能保证项目大小 < 400KB,但实际上项目大小会 <400KB。如果我将数据库切换到 RDS,我提出的设计会有什么不同吗?

我的另一个问题是何时考虑使用 AWS 数据管道或 EMR 或 Glue 等传统 ETL 方法。