问题标签 [supercomputers]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
72 浏览

java - 并行处理:类文件有错误的版本 49.0,应该是 48.0

我通过使用过的终端在超级计算机中运行我的代码。

我有两种代码:1-顺序和并行(共享内存)

顺序的它运行正确,但是当我运行 SM 时,当我输入命令 javac 时出现此错误:

mycode.java:7: cannot access edu.rit.pj.Comm file has wrong version 49.0, should be 48.0 请删除或确保它出现在类路径的正确子目录中。导入edu.rit.pj.Comm;

并行库是:parallel java。

0 投票
1 回答
49 浏览

cpu - 额外内核的 CPU 性能

如何通过组合多个 CPU 内核来获得更快的单线程处理速度,例如在具有 64 个 CPU 内核的 Google Compute Engine n1-highmem-64 机器类型上训练自定义神经网络(不是 tensorflow)?集群计算机还是什么?不知道从哪里开始...谢谢!

0 投票
0 回答
206 浏览

python - 使用 ipython 在超级计算机上绘制绘图

我想在超级计算机上使用 python 绘制一个图形。

比如我写了一个脚本plot.py:</p>

如果我做:

python3绘图.py

没有图片。但我可以获得所有其他数字输出。(我可以在我的mac上用python3.6得到一个相同脚本的图,但在超级计算机上不行)

但如果我这样做:

ipython -i --matplotlib=tk --plot.py 1 2 3 4

或者

ipython -i --pylab=tk --plot.py 1 2 3 4

剧情会出现。

我试图删除“-i”,似乎“-i”是必要的。我不明白这背后的逻辑。为什么我们不能在超级计算机上直接使用python3来绘图?以及为什么 --matplotlib=tk 或 --pylab=tk 都有效,但删除它们都无效。并且“1 2 3 4”不是必需的。

有人可以帮助解释为什么“ipython -i”可以在超级计算机上工作吗?

0 投票
1 回答
155 浏览

nodes - Golem 任务设置:我们如何配置不同的工作负载和任务

我已经在我的 Mac 机器(MacOS 10.13.2)上设置了 Golem Factory 平台。我可以成功设置 Golem 节点。它已启动并正在运行。我的 Golem 钱包显示余额为 1000 GNT。现在我正在尝试在 Golem 中添加任务。它只接受 Blender 和 LuxRender 作为任务资源文件。我没有任何 Blender 或 LuxRender 文件。

我能知道为什么需要 Blender / LuxRender 文件吗?我可以将与机器学习管道或大数据分析工作负载相关的任务资源文件添加到 Golem。这将帮助我将 Golem 的计算能力用于各种工作负载和繁重的任务?

0 投票
1 回答
27 浏览

pbs - 是否可以将工作 ID 更改为人类可读的内容?

我想在工作完成后给自己发一条短信。我了解如何更改作业名称,以便 .o 和 .e 文件具有适当的名称。但我不确定是否有办法将作业 ID 从一串数字更改为指定的键,所以我知道它是哪个作业。我通常同时有很多不同的工作,所以很难记住所有不同的工作 ID 号。.pbs 脚本中有没有办法更改作业 ID,以便在收到消息时可以看到它是哪个作业,而不仅仅是一串数字?

0 投票
2 回答
450 浏览

c++ - 使用 C++ 在 SLURM 下获取可用内存

我在 HPC 环境中工作,我正在使用 SLURM 将我的工作提交到队列中。我正在编写自己的内存缓存机制,因此我想知道每个节点有多少内存可用,以便我可以扩展或重用空间。

有没有办法知道有多少内存可用。SLURM 是否设置任何环境变量。

0 投票
1 回答
1506 浏览

mpi - MPI_Reduce 与(MPI_Gather + Reduction on Root)的性能

CRAY 超级计算机使用 MPICH2 库。每个节点有 32 个 CPU。

我在 N 个不同的 MPI 等级上有一个浮点数,其中每个等级都在不同的节点上。我需要对这组浮点数执行归约操作。我想知道 MPI_Reduce 是否比 MPI_Gather 更快,对于任何 N 值,在根上计算减少。请假设在根等级上完成的减少将使用可以利用 N 个线程的良好并行减少算法完成.

如果对于任何 N 值都不是更快,那么对于较小的 N(如 16)或较大的 N 是否会更适合?

如果是真的,为什么?(例如,MPI_Reduce 是否会使用一种树通信模式,该模式倾向于在它用于与树的下一层通信的方法中隐藏归约操作的时间?)

0 投票
0 回答
57 浏览

remote-access - 为我的研究小组设置这种工作环境的最佳方式是什么?

我们最近有一台超级计算机(我将其称为“集群”,它有 4 个 GPU 和 12 核处理器以及一些不错的存储空间和 RAM)用于我们的实验室进行机器学习研究。机器上将安装一个 Linux 发行版(很可能是 CentOS 或 Ubuntu,当然取决于您的建议)。我们希望以具有以下用户层次结构的方式设计远程访问:

  1. 管理员(1 人,教授):这将是集群的唯一超级用户。
  2. 特权用户(约 3 人,博士生):这些人将是实验室中更精通技术或长期研究人员,他们将在集群中为自己定义一个用户。他们应该能够设置自己的环境(通过 docker 或 conda),远程开发他们的项目并自由地将文件传入和传出集群。
  3. 普通用户(约 3 人,硕士生):我们希望这类用户只与集群交互,因为它的计算能力和存储的数据。他们不应该在集群中拥有自己的用户。如果他们只能使用 Jupyter Notebooks 就可以了。他们应该能够访问集群中的只读数据,因为我们正在处理的数据太多,他们无法在本地下载。但是,他们应该无法更改集群中的任何内容,并且只能将他们的笔记本和一些输出文件放在那里,他们应该能够在必要时将其下载到本地系统以进行报告。

我们还希望只为类型 3 用户分配我们计算能力的一部分。其他人应该能够在需要时访问所有功能。

对于所有用户来说,应该很容易从他们个人计算机上的任何操作系统访问集群。对于类型 1 和 2,我认为用于远程开发 .py 文件和为 jupyter 笔记本建立隧道的 PyCharm 是最佳选择。

我对此进行了大量研究,但由于我没有 IT 背景,我无法确定以下方法是否可行。

  • 为类型 3 用户设置 JupyterHub。这样我们就不必让这些人在集群中拥有用户。但是,我不确定 GPU 对此的支持。根据这里,我们只能限制每个用户的 CPU。此外,当我们设置集线器时,他们是否能够访问管理员主目录下的数据,或者我们是否必须为此复制数据?我们只希望他们能够访问数据的特定部分(与他们正在从事的任何项目相关的数据,因为他们只对那个项目签署了保密协议)。这对 JuptyterHub 可行吗?
  • 其余的(类型 1 和类型 2)将在集群中拥有他们的(sudo 或非)用户。对于这种情况,是否有 UI 可以解决,以便用户可以更轻松地将文件从集群传输到集群(他们不必使用 scp)?例如,FileZilla 是一个选项吗?
  • 最后,如果类型 2 用户可以解决类型 3 用户的问题,那么他们就不必每次遇到问题时都请教教授。但是 afaik,您必须是超级用户才能控制 JupyterHub 的内容。

如果有人必须在自己的实验室中设置这种环境并分享他们的经验,我将不胜感激。

0 投票
1 回答
1227 浏览

python - Python:从磁盘读取时 IOError 110 连接超时

我在 Sun Grid Engine 超级计算集群上运行 Python 脚本,它读取文件 id 列表,将每个文件发送到工作进程进行分析,并将每个输入文件的一个输出写入磁盘。

问题是我在工作函数内部的某个地方收到 IOError(110, 'Connection timed out') ,我不知道为什么。我过去在发出严重延迟的网络请求时收到此错误,但在这种情况下,工作人员只是试图从磁盘读取数据。

我的问题是:从磁盘读取时会导致连接超时错误,如何解决此错误?其他人可以提供的任何帮助将不胜感激。

完整脚本(IOError 出现在 中minhash_text()):

0 投票
1 回答
2003 浏览

cluster-computing - Slurm:失败的作业将被 --requeue 多少次

我有一个 Slurm 作业数组,其作业文件包含一个--requeue指令。这是完整的作业文件:

几个数组值至少重新启动了一次。我想知道,这些作业在最终被调度程序取消之前会重新启动多少次?重启是否会无限期地进行,直到系统管理员手动取消它们,或者像这样的作业是否有最大重试次数?