问题标签 [aws-data-pipeline]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
21 浏览

postgresql - 通过从远程客户端连接的 psql 使用多个 sql 查询

我正在使用 shellscript 活动通过 AWS Datapipeline 连接到 postgressql DB。我必须删除 60 个表的数据并将数据从文件中复制到表中。当复制作业失败时,我想将表回滚到以前的状态,这样表就不会为空。我正在尝试使用以下多个 psql 语句执行此操作,但回滚未按预期工作。当其中一个文件出错且复制语句失败时,表被删除且为空。但是,我想把它回滚到以前的状态。

这是复制命令返回错误时的标准输出日志。

开始删除 560 1 回滚提交

我从 Begin 开始交易,然后是 Delete 语句并复制。如果复制失败,那么我编写了回滚逻辑,否则提交并结束。这里有什么问题?

0 投票
1 回答
131 浏览

amazon-web-services - AWS Data Pipeline 中 EC2 资源的 AWS IAM 设置

我在通过 Shell 命令活动让 AWS Data Pipeline 在 EC2 实例上运行时遇到问题。

我一直在逐步遵循此处找到的指南:https ://medium.com/@SarwatFatimaM/data-scientists-guide-setting-up-aws-datapipeline-for-running-python-etl-scripts-using-c6c8fa4de70d

我遇到的主要问题是管道将挂在WAITING_FOR_RUNNER状态上。我已经确认我的 python 脚本和 .bat(必须从 .sh 更改,因为我使用的是 Windows ec2)在所需的 Ec2 实例内运行。但是,据我所知,这个问题是我从 Datapipline Architect 内部收到的警告的结果:

我尝试编辑 IAM 角色,使 DataPipelineDefaultRole 和 DataPipelineDefaultResourceRole 都可以访问 AmazonEc2FullAccess、AmazonS3FullAccess、AWSDataPipelineRole、AWSDataPipeline_FullAccess 策略,并尝试此处显示的建议内联策略: AWS Data Pipeline: Issue with permissions S3 Access for IAM role and here https ://forums.aws.amazon.com/thread.jspa?threadID=241048

我已经让这些政策搁置了几个小时,并且我已经重建了几次管道,但我仍然不断收到那个具体的警告。你有什么想法?

0 投票
0 回答
286 浏览

amazon-web-services - 是否有适用于 AWS 数据管道的 Azure 集成运行时的等效项?

我之前使用集成运行时组件和 Azure 数据工厂成功实现了从本地 SQL Server 实例到 Azure SQL 的数据传输。

我对 AWS 不是很熟悉,但从我所读到的,AWS 数据管道中的 AWS 相当于 Azure 数据工厂。

如果我想使用 AWS Data Pipeline 从本地 SQL Server 实例传输数据,是否需要使用与 Integration Runtime 等效的组件,或者是否有不同的推荐方法?

0 投票
1 回答
82 浏览

amazon-web-services - 使用 Data Pipeline 在 AWS 中进行批处理文件

我需要读取上传到 s3 存储桶的 csv 批处理文件,加密某些列中的数据并将这些数据保存在 Dynamo DB 表中。在持久化 DynamoDB 表中的每一行时,根据每行中的数据,我需要生成一个 ID 并将其也存储在 DynamoDB 表中。似乎 AWS 数据管道允许创建将 S3 存储桶文件导入 DynanoDB 的作业,但我找不到一种方法来在那里添加自定义逻辑来加密文件中的某些列值并添加自定义逻辑来生成 id上文提到的。

有什么方法可以使用 AWS Data Pipeline 实现这一要求?如果不是,我可以采用 AWS 服务的最佳方法是什么?

0 投票
0 回答
143 浏览

amazon-s3 - 使用 AWS Data Pipeline 将数据从 AWS RDS 移动到 S3

我试图将数据从 RDS 移动到 S3 作为备份。我在本地电脑上使用 DBeaver 与 AWS RDS 建立连接并上传了一个 csv 文件。

然后,我尝试创建一个数据管道以将数据从 RDS 发送到 S3。最初,我收到一个错误DBInstance not found.但是,当我在“Edit Architect”中提供 DBInstance 区域时,因为它与 Data Pipeline 的区域不同,现在,我没有收到该错误。

相反,我得到了一个不同的错误;错误编号:ActivityFailed:SocketTimeoutException

谁能指导我,问题出在哪里?

问候

0 投票
0 回答
20 浏览

amazon-web-services - 默认 PipelineObject 在 AWS DataPipeline 中的外观如何

我正在尝试使用 aws powershell tools 命令创建一个 aws 数据管道。我能够使用New-DPPipeline命令创建管道并尝试使用Write-DPPipelineDefinition编辑管道。我正在尝试了解 PipelineObject 默认值的外观,我正在尝试使用数据管道从 S3 存储桶中导入 DynamoDB 项目。

因此,在我运行Enable-DPPipeline之前,我必须提供有关默认架构的详细信息(包括活动、数据节点、时间表、资源等)以及更多详细信息。有人可以帮助我了解此 API 的默认对象/JSON 的外观吗?

0 投票
0 回答
44 浏览

amazon-web-services - Cralwer 没有从 postgres 分区表在数据湖中创建表

我的表在 postgres 中分区。我创建了一个 Glue 爬虫来创建表。我在配置爬虫的输出中选择了“使用表中的元数据更新所有新的和现有的分区”选项。由于它是分区的,因此不会创建表。你能建议用胶水创建表格的选项吗?

0 投票
0 回答
50 浏览

amazon-web-services - 无法使用 aws 数据管道从配置单元读取数据

使用 aws 数据管道,使用驱动程序 HiveJDBC4.jar 并将类名指定为 com.amazon.hive.jdbc4.HS1Driver 并尝试连接配置单元表。

连接成功,但无法检索数据。

424 [WARN] (TaskRunnerService-resource:df-081576635EAE6FCF0OLE_@ResourceId_O4iPA_2021-04-07T10:31:47-0) private.com.amazonaws.services.s3.AmazonS3Client:没有为流数据指定内容长度。流内容将在内存中缓冲,并可能导致内存不足错误。2021 年 4 月 7 日 10:36:04,548 [INFO](TaskRunnerService-resource:df-081576635EAE6FCF0OLE_@ResourceId_O4iPA_2021-04-07T10:31:47-0)amazonaws.datapipeline.connector.s3.S3OutputConnector:没有记录提交 null 2021 年 4 月 7 日10:36:04,550 [INFO] (HeartBeatService-df-081576635EAE6FCF0OLE-@CopyActivityId_mnq7Z_2021-04-07T10:31:47_Attempt=1) amazonaws.datapipeline.taskrunner.HeartBeatService: HeartBeatService thread shutting down df-081576635EAE6FCF0OLE-@CopyActivityId_mnq7Z_2021-04-07T10 :31:47_Attempt=1 2021 年 4 月 7 日 10:36:04,550 [信息](TaskRunnerService-资源:

0 投票
0 回答
77 浏览

amazon-web-services - 完全删除与 AWS Glue 和 AWS Data Pipeline 相关的所有资源

我是一名开始使用 AWS(免费套餐)的学生。

在意识到(我收到账单)我已经用完了 AWS Glue 和 Data Pipeline 的免费套餐之后。我删除了所有向我收费的资源,甚至这两个 s3 存储桶(在下图中提到)。即使在删除所有内容后,这两个存储桶仍会不断弹出。

如何删除所有 AWS Glue 和 Data Pipeline 相关服务?因为即使我没有使用任何资源,我仍然会收到账单。

s3-bucket-list-snapshot

谢谢你。

0 投票
2 回答
404 浏览

amazon-web-services - 避免在 EMR 集群中运行 Install Task Runner 步骤

我希望你能帮助我。我正在尝试使用数据管道安装 hadoop 和 spark 创建 EMR 集群。问题是这个 EMR 是私有的,所以它不能访问互联网来下载任何东西。在管道中,我指示引导操作以下载所有 .jar 和依赖项,包括 TaskRunner.jar。

管道的 EMRActivity 是启动 script.py

但是这个步骤没有在我的 EMR 集群中运行。相反,我看到“安装 TaskRunner”步骤试图从互联网安装 jar,所以它失败了。

taskRunner 步骤命令:

错误:

我不知道为什么无法创建链接,因为 EMR 在步骤失败中终止并且我无法检查它。
但我不希望执行此步骤,因为这些 jar 将安装在引导程序中。关于如何避免此步骤运行的任何建议?谢谢