问题标签 [aws-datasync]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - 从 EFS 到 S3 的 AWS DataSync - 连接超时
我正在尝试创建一个 DataSync 任务以将文件从 EFS 复制到 S3,为此我正在使用 Terraform。通过阅读文档,看起来我不需要 DataSync 代理来执行此操作。按照https://ystoneman.medium.com/serverless-datasync-from-efs-to-s3-6cb3a7ab85f7上的指南,我创建了以下内容
- 安全组。我创建了这个安全组,并将其分配给数据同步源位置的 EC2 配置
- DataSync 源位置 (EFS)
- DataSync 目标位置 (S3)
- 数据同步任务
除此之外,我还创建了更多与安全相关的内容:
- 允许来自 DataSync 源位置安全组的入站 NFS 访问的安全组规则(基于文章所说的“在您的 EFS 文件系统挂载目标的安全组上,允许来自 DataSync 源位置的安全组的端口 2049 上的入站访问。”)
- 安全组规则,允许所有端口上的所有出站访问 EFS 文件系统的挂载目标的安全组。同样,这是基于文章“在您的 DataSync 源位置的安全组上,允许所有端口上的所有出站访问到您的 EFS 文件系统的挂载目标的安全组”
另请注意,“sg-049fd2c6708c42c20”是 EFS 文件系统的挂载目标安全组。至少我是这么认为的,基于下面的截图(取自 fs-6b3f3753 的 EFS 网络配置):
所以有了这些,我可以看到成功创建的数据同步任务和位置。但是,当我尝试运行任务时,连接超时:
“任务无法访问位置 loc-0bdebcc42541f73e4:x40016:mount.nfs:连接超时”
仅供参考:loc-0bdebcc42541f73e4 是源位置,我可以从控制台看到它具有以下详细信息:
- 位置 ID:loc-0bdebcc42541f73e4
- 类型:Amazon EFS 文件系统
- 小路: /
- 文件共享:fs-6b3f3753
- 子网:subnet-09d919d3b76e9c7f0
- 安全组:sg-0bb0d7ddb3dec8ca6
sg-0bb0d7ddb3dec8ca6 是安全组“sg-datasync”。从控制台,它没有入站,但它有一个出站规则:
- IP版本:-
- 类型:所有 TCP
- 协议:TCP
- 端口范围:0-65535
- 目的地:sg-049fd2c6708c42c20
查看https://docs.aws.amazon.com/efs/latest/ug/troubleshooting-efs-mounting.html#mount-hangs-fails-timeout,似乎我没有设置 EC2 实例或挂载目标安全组配置正确。我的问题是:
- 我上面的 terraform 上的 EC2 实例配置在哪里?是 aws_datasync_location_efs.source_efs.ec2_config 吗?我的猜测是.. AWS 会临时生成一个 EC2 实例来访问 EFS,它是使用这个块配置的吗?
- 假设没有。1 是正确的,EC2 已使用 a) 安全组 'sg-datasync' b) 'datasync_to_efs' 规则配置了挂载目标安全组 (sg-049fd2c6708c42c20) 以允许来自 EC2 安全组 'sg 的入站 NFS 访问-数据同步'。
非常感谢任何帮助/指针!
amazon-web-services - How can I install AWS Data sync agent on Hadoop cluster?
I have my hadoop sandbox set up on a Virtual Machine on Azure Cloud. I would like to install aws data sync agent on my hadoop sandbox so that I can create a task for data copy from my Hadoop cluster to AWS S3 using AWS Data Sync. Can someone guide me or point to me any resource if they have installed datasync agent on hadoop cluster.
sql-server-2012 - 一天内多个分区和多个负载的标准数据验证实践
寻找层之间的数据验证技术。
这是数据流
Azure 上的源(RDBMS)> 平面文件(阶段)> AVRO/json(最终目标)。
问题是,每个阶段可能有单个表的多个平面文件(分区),并且目标上可能有更多潜在的分区。
计划是创建带有一堆列的 SQL 表,但不确定如何处理分区、多个作业负载。
这是基本表的想法..
数据验证(表):dt_validation JobId|tblname|RC_RDBMS|RC_FF|RC_AVRO|Job_run_date|Partition_1|Partition_2
RC= RowCount, FF=Flat file 注意:想法是每次我通过层时,我都会得到行数(RC)并插入/更新表。
上表设计是否适用于一天内的多个分区、多个负载/作业?
需要有关我的表在一天内考虑分区和多个负载的外观的建议。
amazon-web-services - AWS DataSync 任务不可用
我正在尝试创建 DataSync 以将数据从 ec2 中的 NAS 存储传输到 AWS S3。当我创建 DataySync 任务时,错误消息如下所示。
我确实允许来自 NAS 服务器端口 2049 的 DataSync 代理的入站规则。您能帮我进入下一步以创建 DataSync 吗?