问题标签 [amazon-data-pipeline]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
2867 浏览

amazon-web-services - 是否可以创建一个可以使用参数手动触发的 aws 数据管道?

是否可以创建一个可以手动运行的 AWS 数据管道,当我触发它时,我希望传递参数来执行。

0 投票
2 回答
220 浏览

amazon-web-services - 想要对 ShellCommandActivity 创建的 S3 数据节点文件进行服务器端加密

我用stage =“true”创建了一个ShellCommandActivity。Shell 命令创建一个新文件并将其存储在 ${OUTPUT1_STAGING_DIR} 中。我希望这个新文件在 S3 中进行服务器端加密。

根据文档,在 s3 数据节点中创建的所有文件默认情况下都是服务器端加密的。但是在我的管道完成后,在 s3 中创建了一个未加密的文件。我尝试在 S3 datanode 中将 s3EncryptionType 显式设置为 SERVER_SIDE_ENCRYPTION ,但这也无济于事。我想加密这个新文件。

这是管道的相关部分:

0 投票
3 回答
210 浏览

postgresql - 我可以在哪里放置 SQL 代码以删除 AWS Data Pipeline 中的表?

我需要添加一些 SQL 代码来删除数据管道中的 Redshift 表。我可以把它放在一个特定的领域吗?我可以把它放在创建表 SQL 字段中吗?

0 投票
2 回答
3733 浏览

amazon-web-services - AWS Data Pipeline 如何运行 EC2 实例?

我构建了一个 AWS Data Pipeline,并且不断收到有关 EC2 资源的 TerminateAfter 字段丢失的警告。我的 DataPipeline 旨在在整个过程中多次使用同一个实例,即每小时运行一次(我还没有运行管道)。

因此,如果我将该Terminate After字段设置为 3 分钟,我想知道 EC2 实例是否在每次启动后 3 分钟终止。或者 EC2 实例是否在最后一次在管道中使用后 3 分钟终止?

0 投票
2 回答
90 浏览

amazon-web-services - AWS 数据管道中超过一个对象匹配谓词(共 2 个)

在 AWS 数据管道控制台中,当我上传管道定义文件时,我总是收到此错误 -

管道创建失败。数据管道未能创建管道:超过一个对象与谓词匹配(共 2 个)。(服务:空;状态代码:0;错误代码:空;请求 ID:空)

尝试使用“从架构师构建”选项创建管道定义。它起作用了,然后我导出了管道定义并尝试使用“上传管道”创建另一个管道。这样做只是为了确保我创建的管道没有任何错误。但仍然得到同样的错误。有什么解决办法吗?

0 投票
2 回答
955 浏览

batch-processing - 从 Amazon Data Pipeline 中的管道调用管道

我的团队目前正在寻找一个相当昂贵的 ETL 工具的替代品,在这一点上,我们正在将其用作美化的调度程序。ETL 工具提供的任何集成我们都使用我们自己的 python 代码进行了改进,所以我真的只需要它的调度能力。我们正在研究的一个选项是我目前正在试用的数据管道。

因此,我的问题是:假设我们有两个要加载的数据集——产品和销售。这些数据集中的每一个都需要多个步骤来加载(获取源数据、调用 python 脚本进行转换、加载到 Redshift)。但是,产品需要在销售运行之前加载,因为我们需要产品成本等来计算利润。是否可以在 Data Pipeline 中有一个“主”管道先调用产品,等待其成功完成,然后再调用销售?如果是这样,怎么做?如果 Data Pipeline 不适合这种类型的工作流程,我也愿意接受其他产品建议。感谢帮助

0 投票
2 回答
583 浏览

amazon-web-services - SSH 到 ec2 实例并执行

我有一个需要响应的数据管道应用程序。完成后,我 ssh 到一个 ec-2 实例并执行一个脚本。数据管道完成后对该框执行 ssh 的最佳方法是什么?我应该使用 lambda 函数并让它侦听数据线完成和 ssh 到该框并执行脚本吗?我不能把剧本从那个盒子里拿出来。

0 投票
4 回答
2061 浏览

amazon-web-services - 使用 AWS Data Pipeline 在 S3 到 EC2 之间传输文件

我想将 TB 的数据从 S3 传输到 EC2 Windows Server,然后再传输回来,这在使用基本的AWS CLI Copy 命令时需要几个小时。为了帮助加快速度,我想使用AWS Data Pipeline , AWS Data Pipeline文档中的图形似乎表明数据至少可以从 EC2 流向 S3:

然而,我发现很难理解如何做到这一点。我见过的最接近的例子是通过使用ShellCommandActivity将数据从 S3 DataNode传输到 EC2,然后再将其复制回 S3 来暂存数据的概念。

相反,我想在已经运行的 Windows 实例上从 S3 复制数据,然后再将更多数据复制回 S3。

0 投票
1 回答
1434 浏览

variables - 具有多个输入的 AWS 数据管道活动

作为 Amazon AWS 数据管道的一部分,我有一个使用两个未暂存的 S3 数据节点作为输入的配置单元活动。我想要的是能够在活动上设置两个脚本变量,每个变量都指向一个输入数据节点,但我无法获得正确的语法。使用单个输入,我可以编写以下内容,并且可以正常工作:

当我添加第二个输入时,我遇到了如何引用它们的问题,因为它们现在是一个输入数组,正如您在下面的管道定义中看到的那样。本质上,我想实现以下目标,但无法找出正确的语法:

这是管道定义的活动部分:

我计划不暂存表并在 hive 脚本中处理表创建,以便更容易单独运行每个 Hive 活动以及在管道本身中运行。

这是我在使用数组语法时看到的错误:

0 投票
1 回答
901 浏览

amazon-web-services - AWS Data Pipeline RedshiftCopy 活动找不到合适的驱动程序

我在 AWS Data Pipeline 中设置了 RedshiftCopy 活动,但它一直失败并出现以下错误:

java.lang.RuntimeException: java.sql.SQLException: No suitable driver found for <REDACTED> at private.com.google.common.base.Throwables.propagate(Unknown Source) at amazonaws.datapipeline.database.ConnectionFactory.getConnection(ConnectionFactory.java:145) at amazonaws.datapipeline.database.ConnectionFactory.getRedshiftDatabaseConnection(ConnectionFactory.java:80) at amazonaws.datapipeline.database.ConnectionFactory.getConnection(ConnectionFactory.java:47) at amazonaws.datapipeline.database.ConnectionFactory.getConnectionWithCredentials(ConnectionFactory.java:230) at amazonaws.datapipeline.redshift.RedshiftActivityRunnerFactory$RedshiftActivityRunner.<init>(RedshiftActivityRunnerFactory.java:29) at amazonaws.datapipeline.redshift.RedshiftActivityRunnerFactory.create(RedshiftActivityRunnerFactory.java:48) at amazonaws.datapipeline.activity.RedshiftCopyActivity.runActivity(RedshiftCopyActivity.java:49) at amazona ..ETC

“runsOn”EC2 实例是数据管道管理的资源,所以我对错误感到困惑,因为我假设任何由数据管道启动的实例都将安装所有必要的资源。

有没有人遇到过这个错误?如果有的话,你做了什么来修复它?

提前致谢。