问题标签 [starcluster]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - AWS 集群上的 MPI
我一直在关注我在 mpitutorial.com 上找到的教程,到目前为止我已经能够做到这一点。但是,在设置了我的 AWS 集群之后,我遇到了一个小问题。该程序仅在一个处理器上运行,即使使用主机文件,世界大小仍然是 1。因此,我无法正确练习发送/接收代码。
这是我得到的输出mpirun -host master,node001 -n 4 ./mpi_hello_world
:
Hello world from processor master, rank 0 out of 1 processors
Hello world from processor master, rank 0 out of 1 processors
Hello world from processor node001, rank 0 out of 1 processors
Hello world from processor node001, rank 0 out of 1 processors
谁能告诉我为什么 -host 标志实际上没有在我启动的另一个实例上运行进程?
cluster-computing - 使用 Starcluster 在 Amazon ec2 中进行集群
是否可以使用 starcluster 将实例从 AMI 部署到 Amazon EC2 中的多个区域?
任何人都可以给我你的反馈吗?
我需要将实例部署到 Amazon EC2 中的各个区域。
ipython-parallel - AWS Spot 实例和 ipcluster 插件
目前,当 AWS 关闭一个或多个Spot 实例节点时, ipcluster 插件会做什么?是否有任何机制可以重新启动然后将这些节点重新添加回 IPython 集群?
performance - Monitoring StarCluster / Sun Grid Engine Cluster Performance
I am a bit new to using StarCluster and SGE. I was wondering what the best practice is for monitoring "Cluster Performance", that is, to determine how many of a certain job the cluster can run in some unit of time. I am familiar with qstat command but that just shows the status of each job. I guess my use case is to submit X jobs and to know how long it takes for all X to complete. Is there an easy out-of-the-box way to do this or must I write a scipt to do it?
Right now I am using Ubuntu 12.04 for each instance.
Thanks Much!
sungridengine - 确保 StarCluster / SunGridEngine (SGE) 上的每个节点一个作业
在qsub
StarCluster / SGE 集群上执行作业时,是否有一种简单的方法可以确保每个节点一次最多接收一个作业?我遇到了多个作业最终在同一个节点上导致内存不足 (OOM) 问题的问题。
我尝试使用-l cpu=8
,但我认为这不会检查使用的核心数量,而只是检查盒子本身的核心数量。
我也尝试过-l slots=8
,但后来我得到:
c++ - 保存 Amazon Ubuntu EC2 现货实例的系统状态并从新实例恢复?
我在 Amazon 的 EC2* 上运行不同版本的经济模型(使用 C++),这需要 30 分钟。和三个星期的运行。我想切换到 Spot 实例以节省资金。有没有办法定期将系统状态保存到存储在我的 EBS 卷上的文件中,并在重新启动终止的 Spot 实例后从该文件恢复?如果有 C++ 解决方案,那将是最好的。我知道人们通常会通过定期保存程序的输出并构造程序以使其可以从中断的地方继续,从而获得“持久”的现场实例,但是“系统状态”方法是否可行?我更像是一名经济学家,而不是程序员和 Ubuntu 新手。
注意:*我在 us-east 可用区使用 starCluster Ubuntu AMI(当前支持 ami-3393a45a ubuntu-13.04-x86_64 EBS)和 c3.Large 实例。该算法的 CPU 密集型比内存密集型要多得多。每个程序使用和创建的数据少于 16KB,但使用了大约 100% 的 CPU(来自 top 命令)。该算法涉及反复求解经济模型,直到可选行为收敛。我计划对我的程序的所有版本使用相同的 starCluster 配置。
python - 从 Python 程序将输入发送到命令行提示符
我相信这是一个非常简单的问题,但我一直未能找到一个简单的答案。
我正在运行一个终止 AWS 集群(使用 starcluster)的 python 程序。我只是使用子进程从我的 python 程序中调用一个命令,如下所示。
实际命令在很大程度上与我的问题无关,但提供了一些上下文。此命令将开始终止集群,但会在继续之前提示输入是/否,如下所示:
如何在我的 python 程序中自动键入 yes 作为此提示的输入?
ipython - 如何使用 StarCluster 而不是 0.13.1 来使用 IPython 2.3.1?
StarCluster 似乎默认使用 IPython 0.13.1。有没有办法将它升级到 IPython 2.3.1?可以通过配置文件完成吗?还是集群启动后手动?
这是我的配置,只有很小的安全性更改:
starcluster - 新的 Starcluster 版本打破了 nfs 的设置
我刚刚升级了 starcluster 以使用现代机器,现在我得到了以下回溯。以前的版本可以在相同的配置下正常工作。需要对配置进行哪些更改才能使其正常工作?看起来它正在导出现代 ubuntu 服务器上不存在的文件。(我在github上问过这个问题,没有人解决)