问题标签 [aws-batch]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - AWS Batch 故障转移策略
我AWS batch
用于执行作业,我正在计算按内容大小使用的初始内存。大约 90% 的时候它成功,但 10% 的时候它失败了OutOfMemory error
。
因此,对于此失败作业的下一次尝试,我想增加内存并再次提交作业。我不能Job Attempts
为此使用 AWS 批处理,我需要一个不同的FailOver Strategy。
我可以使用的一种方法是让 lambda 每 1 小时检查一次作业状态,如果失败,请使用额外的内存再次提交作业。
还有其他更好的方法来为 AWS Batch 作业设置故障转移策略吗?
amazon-web-services - 创建将 UserData 传递给容器实例的 AWS Batch 托管计算环境
我想为AWS Batch创建一个托管计算环境,但使用EC2 用户数据来配置实例,因为它们被引入 Batch 调度作业的 ECS 队列。
没关系,但用户数据脚本的目的是将大型数据文件下拉到 Docker 容器将引用的 InstanceStore。
这在 ECS 中是可能的,但我发现无法将用户数据传递到托管批处理计算环境。
最多,我可以指定 AMI。但是由于我们要使用托管,我们必须使用Amazon ECS-optimized AMI
.
我更喜欢使用EC2 用户数据作为解决方案,因为它为我们希望执行的任何其他引导提供了一个入口点。但我对其他黑客或解决方案持开放态度,只要它们适用于Managed Compute Environment。
amazon-web-services - AWS EC2(批量)限制连接?
因此,我在获取 100,000 多个域的 aws 批处理上运行脚本。
- 该脚本在 docker 容器中运行。
- 这些域是随机的并且在一个 redis 队列中。
- 该脚本从队列中拉出 20,000 个域,对其进行处理,然后将结果再次写入 redis。
当我在我启动的 EC2 实例上运行脚本时,我得到了。
当我在批量启动的 EC2 实例上运行它时,我得到:
AWS 批处理启动的实例是否会限制我的连接?因为我使用的是 Docker,所以除了带宽问题之外,我想不出为什么结果会有所不同。Docker 镜像存储在 ECS 中并拉下,然后运行脚本。
我已经在数百万个随机域上运行了这个测试,结果是相同的,所以从统计学上讲,它也与域的抽样无关。此外,在我启动该实例与批处理的实例上,良好的域率是 2 倍。
更新 1:差异,EBS 是 True 和 False 。但我似乎无法用 AWS 批处理来改变它。
更新 2:为具有较低规格的机器测试了 EBS False,但仍然无法解释较低的网络性能。也许它的AMI?
更新 3:我测试了 AMI,这可能是批量使用的 ami-c6f81abe 的问题。还不知道为什么。
更新 4:原来是 jobDefinition 上的 ulimit 参数导致了我的问题。
deep-learning - AWS Batch,如何请求 GPU
我正在记录如何使用 AWS 批处理来训练深度学习模型。这个想法是,一旦建立了模型,我想提交几个工作来探索一下超参数空间。
在这篇有趣的博文中,博主创建了一个 P2 实例的执行环境,并用它来训练 MNIST 的卷积神经网络。我现在想知道在我的工作定义中是否可能需要特定数量的 GPU 而不是 vCPU。通过这种方式,我确信我的工作拥有所需的 GPU 数量。如果没有,是否有任何解决方法?
docker - 我应该如何处理从 S3 获取大型共享文件以供容器并行处理
我在 S3 中有一些较大的文件 - 高达 40G
我想使用 AWS Batch 设置多个容器来处理每个文件 - 每个容器将获取较大文件的一小部分并对其进行分析,并将其一小部分结果返回给 S3。
由于大小,我不想为每个容器检索大文件的单独副本。
因为我使用的是 AWS Batch,所以不一定知道底层服务器的数量和各个大小(这取决于现货定价),因此将所有栅格预先复制到所有服务器不是一个好的选择。
在某些时候,容器将负责处理尚未在本地卷上的文件块 - 很容易复制它,问题是,当 2 个或更多容器发现文件不存在时会发生什么,并且同时开始复制?
所以,我的问题是“确保每个容器所需的文件在运行该特定容器的主机上的共享卷上可用的最佳模式是什么,而不产生竞争条件和容器间的依赖关系?”
TIA西蒙
aws-sdk-js - TypeError:AWS.Batch 不是构造函数
使用
这应该有效:
是什么赋予了?
amazon-web-services - AWS Cloudformation:模板验证错误
我正在使用以下模板使用 cloudformation 创建作业定义。当我上传这个模板时,我收到了错误:
“模板验证错误:无效的模板属性或属性 [JobDefinition]”
我错过了模板中的某些内容吗?
amazon-web-services - 使用 AWS Batch 更新到 RDS
嗨,
我是 AWS 新手,我有一个用例,我必须根据 S3 存储桶中收到的输入文件处理 Amazon RDS DB 上的批量更新。请验证我在这个用例上的解决方案,如果我错了,请纠正我。
我将在 S3 存储桶中的文件到达时使用 AWS Lambda 函数来调用 AWS Batch 处理,该处理使用 EC2 进行处理并将更新写入 RDS。
提前致谢。
amazon-web-services - 获取 AWS Batch 作业的创建时间
在执行 AWS Batch 作业时,我想知道该作业的创建时间。API提供了一种获取作业详细信息的方法,包括createdAt
. 但是我如何知道工作 ID 以获取这些详细信息?
amazon-web-services - 如何定期提交aws批处理作业
我们正在寻找 aws 批处理作业,并且我们希望在某个预定义的时间间隔内提交此批处理作业。例如:我们希望每 4 小时自动提交一次此作业。
什么可能是实现它的首选方式。