问题标签 [supercomputers]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
performance - MPI 加速与可简单并行化的 DO 循环 (F90)
我有一个简单的 DO 循环(Fortran 90),其中各个迭代彼此独立,并且仅从硬盘驱动器输入/输出数据(进程之间不交换消息/MPI),我已经并行化了使用 MPI。在顺序运行中,循环的一次迭代大约需要一天才能完成。如果我并行运行 29 次这样的迭代,大约需要 2.5 天。它位于超级计算机的一个节点上(即没有节点间通信)。
我听说有人告诉过,如果是可并行化的程序(循环中的独立步骤),总执行时间应该大约接近在循环中只运行一个步骤时的执行时间。
问题:你觉得这种加速效果好吗?
非常感谢。
apache-spark - 在超级计算机上运行 Spark 应用程序
我对 YARN 有一些疑问?
如何在 YARN 上运行我的 jar 文件?
线程“主”java.lang.Exception 中的异常:使用主 'yarn-cluster' 运行时,必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。
我应该在这台超级计算机的每个节点上复制 Spark 吗?
在这个超级计算机中,所有的节点都是相互连接的,它有自己的架构。
有没有人可以在超级计算机上运行 Spark 应用程序?
java - 如何告诉 JRE 使用多个 CPU 节点
我有一个要在超级计算机上运行的 .jar 文件。有大约 40 个 CPU 节点可用,但 Java 在运行我的程序时只使用其中一个。有没有办法告诉 Java 使用所有可用的节点来运行给定的程序(最好不重新编译程序)?
linear-algebra - 要求解的集合线性方程组的最大大小?(X=AX+B)
这是一个非常普遍的问题,关于一组线性方程组的最大大小,由当今最快的硬件求解,形式为:
X = AX + B
A:NxN 浮点矩阵,它是稀疏的。
B:浮点数的 N 向量。
求解 X。
这变成了 X(IA) = B,正如我在这里读到的,最好使用分解(而不是矩阵求逆)来解决:
http://www.johndcook.com/blog/2010/01/19/dont-invert-that-matrix/
您是否了解自己或参考了基准测试或论文,该基准或论文使用当今最快的硬件为 N 提供了一些最大值?我见过的大多数基准测试都使用 N < 10,000。我正在考虑在一个月内处理 N>10x10^6 或更多。
请不仅考虑计算维度,还要考虑 A 的存储。这可能是一个问题:例如,假设 N = 1 x 10^6,对于完全密集的矩阵,存储将是 1x10^12 x 4 字节/(1024x1024x1024) = 4 Terrabytes,我想这是可以管理的。
最后,解决系统的方法是否可以并行化,以便我可以假设并行化 N 可以很大?
在此先感谢, bliako
linux - 在linux命令行中运行python脚本并获取变量
我有低内存笔记本电脑,但我需要处理超过 1Gb 的全基因组数据。为此,我连接到一台超级计算机。在 Windows 机器中,我在 IDLE 或 Pyscripter 中运行代码,当出现错误时,它很容易识别,因为直到错误点的所有变量都可用且可访问。例如,如果您有这样的代码:
如果解析染色体和序列变量时出错,它们的值可以在 IDLE 中访问。但是在超级计算机 linux 机器中,当发生错误时,我无法获取变量以找出问题所在,我不能使用打印变量,因为它太大而无法打印。我的问题是,有没有什么方法可以在 linux 命令行中运行 python 脚本,以便在脚本完成处理后获得在运行脚本过程中生成的变量,有无错误?
cluster-computing - 如何在 SLURM 中查看当前用户的队列
在由 SLURM 管理的集群上,我想检查当前用户(和集群)的队列。通常,我必须使用以下命令:
除了这是一个经常使用的相当长的命令这一事实之外,问题在于它需要用户名。我创建了一个脚本,在某些时候我想检查用户的队列,但我必须先获取用户名。
对于所有这些,我都有一个解决方法,但如果我可以使用类似于 LoadLeveller 的相应命令,那就太好了:
有这样的吗?或者我可以以某种方式在--user
标志中指定“当前用户”吗?
supercomputers - 就超级计算机而言,Rmax/RPeak(比率)是多少
我正在研究top500 超级计算机数据库。(http://www.top500.org/)
Rmax
与结果的比率是否RPeak
与某事有关?比如说效率?或任何可以说明超级计算机的东西。
会不会是谎言因子之类的东西?
linux - linux shell远程站点中的信号11。我该如何排除故障
我是生物专业的,最近才为研究工作进行主要编码。为了支持研究,我们的校园有一台供研究人员使用的校园超级计算机。我从这台超级计算机远程工作,它使用 linux shell 访问它并提交作业。我正在使用安装在计算机上的名为 Mauve 的程序编写用于对齐许多基因组的作业提交脚本。现在,我以前在 Mauve 上运行过一项工作,并且已经更改了该工作的脚本以适应该工作。只有这一次我不断收到这个错误
所以我不知道如何解决这个问题。如果这是超级基本且浪费时间,我很抱歉,但我不知道如何在远程站点解决此问题。到目前为止,我看到的所有可能的解决方案都要求我访问我无法控制的硬件或软件。我目前的提交脚本是这样的。
parallel-processing - 并行提交作业
我想分析彼此不相关的不同文件(比如说 10 个)中的数据。我想知道并行提交作业或打开10个终端与提交作业10次有什么区别。假设我有超过 10 个内核,我想知道与运行时间相关的差异。在文件不相互依赖的情况下,我不确定我是否理解并行编程的优势。
java - Issues with supercomputer submission scripts to run NetLogo
I'm having some difficulty getting the supercomputer to run my netlogo model. I'm attempting to follow the advice given here and here. But no luck. I think it's not finding some of the needed jars? The entirety of the v5.3.1 folder is located at:
/users/PAS1038/xxmyusernamexx/netlogo/netlogo-5.3.1/
and I've added the rnd
extension in the app/
folder.
This is my submission script:
but it is giving me the following error: