问题标签 [lustre]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
239 浏览

filesystems - Lustre:向不同的 OST 发送不同的写入请求

我有一个典型的场景,可以并行写入请求,每个文件大小为几百 GB。

我的测试系统 Lustre 文件系统有 4 个 OST(每个 3TB)和 1 个 MDS。

我实际观察到的是,在禁用条带化的情况下,Lustre 会将所有文件写入单个 OST,除非它已满。

是否可以将 Lustre 配置为当出现并行或重叠的写入请求时,MDS 会自动选择当前不忙的目标?

我很好奇为什么 Lustre 默认不这样做,或者可能是因为我错过了什么?

0 投票
1 回答
425 浏览

mongodb - Mongodb超过Lustre?

我需要安装一个具有大量数据存储的 mongodb 实例。我们有一个数百 TB 的 Lustre FS,但是当 monogdb 启动时显示此错误:

但是权限应该没问题:

并且没有其他正在运行的进程:

有没有人这样做(Lustre + mongodb)?

0 投票
1 回答
252 浏览

filesystems - 在 Lustre 文件系统上运行 LevelDB

我正在运行一段基于 LevelDB 的代码。它在我的工作站上运行良好,但是当我将它部署到集群中(使用 Lustre 文件系统)时,程序因“无效参数”错误而中断。此错误由 LevelDB 引发。

经过几个小时的阅读,我在网上发现,LevelDB 无法在集群或多进程环境中运行。我没有尝试与 LevelDB 数据库并行做任何事情,但似乎 LevelDB 只是不喜欢那个文件系统。

有没有人建议让 LevelDB 在具有共享文件系统的集群中运行?这甚至可能吗?我应该考虑哪些因素?

干杯!

0 投票
1 回答
872 浏览

mysql - 在 Lustre 文件系统上启动 Mysqld 的持续时间太长(InnoDB:无法锁定 ./ibdata1,错误:38)

我可以启动mysqld并正常使用它。但是启动的持续时间很长(超过 3 分钟)。当我检查日志文件 ( /var/log/mysqld.log) 时,我发现InnoDB: Unable to lock ./ibdata1, error: 38.

最近,由于文件太大,我将我的 mysql 数据从 移动/var/lib/mysql到。/home/user/mysql然后我分别换datadir/etc/my.cnf/etc/init.d/mysqlddatasocketc/my.cnf。它的所有者和模式/home/user/mysql以及其中的文件也已正确设置。

此安装中的/home卷位于 Lustre 文件系统上。

当我发现我的数据库中有 3 个 innodb 引擎表时,我删除了它们。但问题仍然存在。

这是启动 mysqld ( /var/log/mysqld.log) 时的日志。

0 投票
1 回答
853 浏览

mpi - openmpi:MPI_recv 挂起特定数量的进程

我正在 lustre 上运行 HPC 基准测试(IOR - http://sourceforge.net/projects/ior-sio/)。我编译了 IOR 的源代码并使用 openmpi 1.5.3 运行它。

问题是当进程数 ( -np) 小于 6 时它会挂起,这是奇数。删除我所做的所有其他事情,我运行的实际命令归结为:

将进程附加到 GDB 表明该进程在 MPI_recv 处挂起:

此问题仅在-np2/3/4/5 时发生。它适用于 1/6/7/8/16 等。

如果我使用简单的命令(例如date或),我将无法重现此问题ls。所以我不确定这是否是我的环境或我编译的 IOR 二进制文件的问题(不太可能,因为旧的/稳定的 IOR 二进制文件也会发生同样的情况)。

当使用 openmpi1.4.3 而不是 openmpi1.5.3 时,也会观察到精确的行为。

我也尝试过使用不同数量的主机(--machinefile参数),并且对于上述-np值观察到相同的行为。它挂起的源代码行是这样的:

基本上我正在寻找关于为什么在2/3/4/5MPI_recv()时可能会挂起的线索。-np如果需要其他信息,请告诉我。谢谢。

0 投票
2 回答
4417 浏览

filesystems - 什么是 HPC 中的暂存空间/文件系统

我正在研究 HPC 应用程序和并行文件系统。我遇到了临时空间和临时文件系统这个术语。

我无法想象这个暂存空间存在的位置。它是在计算节点上作为挂载的文件系统 /scratch 还是在主存储空间上。

它的内容是什么。

暂存空间是否独立于每个计算节点,或者两个或多个节点可以共享一个暂存空间。

所以假设我有一个文件 123.txt 我想并行处理。暂存空间将包含此文件的部分内容还是将复制整个文件。

我很困惑,谷歌上没有明确的描述。请指出一些。

多谢。

0 投票
2 回答
374 浏览

io - 如果我的条带数设置为大于我的条带数会怎样

我对 Lustre 文件系统有疑问。如果我有一个大小为 64 GB 的文件并将条带大小设置为 1GB,我的条带数变为 64。但如果我将条带数设置为 128,那么 Lustre 在这种情况下会做什么?

0 投票
1 回答
449 浏览

sbt - SBT 强制文件系统锁定,即使在分布式文件系统上

我打算在我们大学的高性能计算集群上运行一个使用 SBT 的扩展测试套件(它使用 Lustre 文件系统)。

由于我有非常基本的用户权限,我只能尝试手动安装并通过提取 tarball 进行安装。

即使使用-Dsbt.boot.lock=false,我也会得到以下堆栈跟踪:

问题是 Lustre 和 NFS 等并行分布式文件系统没有实现lock0,但 SBT 似乎依赖它。

无法在高性能集群上运行我的测试套件是一个巨大的劣势,因为在我的 Intel i5、7200 rpm HDD 笔记本电脑(这是我唯一的选择)上运行测试套件至少需要 6 个小时。除了分布式文件系统之外,我无权访问任何文件系统,因此不能将引导目录放在其他地方。

我本来打算在GitHub 上将此作为问题提交,但社区指南表明,在 StackOverflow 上发布问题是解决此类问题的更好选择。

我最终在笔记本电脑上一夜之间运行了测试,但我对此并不十分满意。除非这个问题得到解决,否则我将无法继续使用 SBT 来研究基于参与者的测试。

0 投票
1 回答
875 浏览

parallel-processing - 并行 HDF5:运行 t_mpi 时“make check”挂起

我一直在努力让并行 HDF5 在集群上工作整整一周,但没有任何进展。我希望是否有人可以帮助我解决这个问题。谢谢!

我正在使用 RedHat Enterprise Linux 5.5 x86_64 操作系统在光泽文件系统上构建 Parallel HDF5 (hdf5-1.8.15-patch1)。我尝试用 impi 4.0.2 和 openmpi 1.8 编译它,它成功了,没有任何错误。当我“进行检查”时,它们都通过了串行测试,但在进入并行测试后立即挂起(特别是 t_mpi)。最终,我不得不按 ctrl+C 来结束它。这是输出:

上面两个 MPI 实现的输出是一样的,但是 openmpi 也会输出警告:

警告:您的 OpenFabrics 子系统似乎配置为仅允许注册您的部分物理内存。这可能会导致 MPI 作业以不稳定的性能运行、挂起和/或崩溃。

我已经搜索过这个问题。但我不认为这可能是挂起的原因,原因在最后说明。

我试图找到它挂起的地方。我发现它总是卡在它遇到的第一个集体功能上。例如,在 t_mpi. 它首先挂在:

MPI_File_delete(文件名,MPI_INFO_NULL);(第 477 行),

在 test_mpio_1w 先生。如果我注释掉这一行,它就会卡在下面的 MPI_File_open 上。但我不确定这些函数内部发生了什么。

我注意到另一件事。我进行“制作”的 HDF5 文件夹位于 NFS 文件系统中,我只能通过位于其他地方的特定文件夹访问光泽。所以,我发现如果我不将 HDF5_PARAPERFIX 设置为我的 luster 文件夹,测试运行得很好,因为默认情况下测试是在本地执行的。所以,我想这应该是与光泽本身有关的问题,而不是内存的限制?

谢谢!

0 投票
1 回答
259 浏览

lustre - 安装 oss 时光泽挂起

我已经安装了并行文件系统“Lustre”以及这张带有 RPM的幻灯片。

已设置节点 A、B。

  1. 将 mds 和 mdt 安装到节点 A。它的挂载成功。
  2. 但是,在使用 mkfs.lustre 将 oss 格式化到节点 B 之后,我安装了它,但它开始了Infinite waiting。它每 120 秒检索一次此错误。

    信息:任务 mount.lustre:1541 被阻止超过 120 秒。未污染 2.6.32-504.8.1.el6_lustre.x86_64 #1 "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" 禁用此消息。

为什么会发生?或者你能给我更好的教程或经验吗?它的 Lustre 版本是 2.7.0。

非常感谢。