“lustre”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

239 浏览

filesystems - Lustre：向不同的 OST 发送不同的写入请求

我有一个典型的场景，可以并行写入请求，每个文件大小为几百 GB。

我的测试系统 Lustre 文件系统有 4 个 OST（每个 3TB）和 1 个 MDS。

我实际观察到的是，在禁用条带化的情况下，Lustre 会将所有文件写入单个 OST，除非它已满。

是否可以将 Lustre 配置为当出现并行或重叠的写入请求时，MDS 会自动选择当前不忙的目标？

我很好奇为什么 Lustre 默认不这样做，或者可能是因为我错过了什么？

2013-06-26T16:34:16.513

0 投票

1 回答

425 浏览

mongodb - Mongodb超过Lustre？

我需要安装一个具有大量数据存储的 mongodb 实例。我们有一个数百 TB 的 Lustre FS，但是当 monogdb 启动时显示此错误：

但是权限应该没问题：

并且没有其他正在运行的进程：

有没有人这样做（Lustre + mongodb）？

mongodb lustre

2013-07-15T10:45:46.463

0 投票

1 回答

252 浏览

filesystems - 在 Lustre 文件系统上运行 LevelDB

我正在运行一段基于 LevelDB 的代码。它在我的工作站上运行良好，但是当我将它部署到集群中（使用 Lustre 文件系统）时，程序因“无效参数”错误而中断。此错误由 LevelDB 引发。

经过几个小时的阅读，我在网上发现，LevelDB 无法在集群或多进程环境中运行。我没有尝试与 LevelDB 数据库并行做任何事情，但似乎 LevelDB 只是不喜欢那个文件系统。

有没有人建议让 LevelDB 在具有共享文件系统的集群中运行？这甚至可能吗？我应该考虑哪些因素？

干杯!

filesystems cluster-computing leveldb lustre

2014-04-24T21:08:46.530

0 投票

1 回答

872 浏览

mysql - 在 Lustre 文件系统上启动 Mysqld 的持续时间太长（InnoDB：无法锁定 ./ibdata1，错误：38）

我可以启动mysqld并正常使用它。但是启动的持续时间很长（超过 3 分钟）。当我检查日志文件 ( /var/log/mysqld.log) 时，我发现InnoDB: Unable to lock ./ibdata1, error: 38.

最近，由于文件太大，我将我的 mysql 数据从移动/var/lib/mysql到。/home/user/mysql然后我分别换datadir了/etc/my.cnf和/etc/init.d/mysqld换datasock了etc/my.cnf。它的所有者和模式/home/user/mysql以及其中的文件也已正确设置。

此安装中的/home卷位于 Lustre 文件系统上。

当我发现我的数据库中有 3 个 innodb 引擎表时，我删除了它们。但问题仍然存在。

这是启动 mysqld ( /var/log/mysqld.log) 时的日志。

mysql linux innodb lustre

2014-10-27T12:07:34.707

0 投票

1 回答

853 浏览

mpi - openmpi：MPI_recv 挂起特定数量的进程

我正在 lustre 上运行 HPC 基准测试（IOR - http://sourceforge.net/projects/ior-sio/）。我编译了 IOR 的源代码并使用 openmpi 1.5.3 运行它。

问题是当进程数 ( -np) 小于 6 时它会挂起，这是奇数。删除我所做的所有其他事情，我运行的实际命令归结为：

将进程附加到 GDB 表明该进程在 MPI_recv 处挂起：

此问题仅在-np2/3/4/5 时发生。它适用于 1/6/7/8/16 等。

如果我使用简单的命令（例如date或），我将无法重现此问题ls。所以我不确定这是否是我的环境或我编译的 IOR 二进制文件的问题（不太可能，因为旧的/稳定的 IOR 二进制文件也会发生同样的情况）。

当使用 openmpi1.4.3 而不是 openmpi1.5.3 时，也会观察到精确的行为。

我也尝试过使用不同数量的主机（--machinefile参数），并且对于上述-np值观察到相同的行为。它挂起的源代码行是这样的：

基本上我正在寻找关于为什么在2/3/4/5MPI_recv()时可能会挂起的线索。-np如果需要其他信息，请告诉我。谢谢。

mpi openmpi lustre

2014-12-19T15:10:42.720

0 投票

2 回答

4417 浏览

filesystems - 什么是 HPC 中的暂存空间/文件系统

我正在研究 HPC 应用程序和并行文件系统。我遇到了临时空间和临时文件系统这个术语。

我无法想象这个暂存空间存在的位置。它是在计算节点上作为挂载的文件系统 /scratch 还是在主存储空间上。

它的内容是什么。

暂存空间是否独立于每个计算节点，或者两个或多个节点可以共享一个暂存空间。

所以假设我有一个文件 123.txt 我想并行处理。暂存空间将包含此文件的部分内容还是将复制整个文件。

我很困惑，谷歌上没有明确的描述。请指出一些。

多谢。

filesystems nfs hpc supercomputers lustre

2015-01-21T11:32:28.193

0 投票

2 回答

374 浏览

io - 如果我的条带数设置为大于我的条带数会怎样

我对 Lustre 文件系统有疑问。如果我有一个大小为 64 GB 的文件并将条带大小设置为 1GB，我的条带数变为 64。但如果我将条带数设置为 128，那么 Lustre 在这种情况下会做什么？

io parallel-processing lustre

2015-04-08T05:16:46.770

0 投票

1 回答

449 浏览

sbt - SBT 强制文件系统锁定，即使在分布式文件系统上

我打算在我们大学的高性能计算集群上运行一个使用 SBT 的扩展测试套件（它使用 Lustre 文件系统）。

由于我有非常基本的用户权限，我只能尝试手动安装并通过提取 tarball 进行安装。

即使使用-Dsbt.boot.lock=false，我也会得到以下堆栈跟踪：

问题是 Lustre 和 NFS 等并行分布式文件系统没有实现lock0，但 SBT 似乎依赖它。

无法在高性能集群上运行我的测试套件是一个巨大的劣势，因为在我的 Intel i5、7200 rpm HDD 笔记本电脑（这是我唯一的选择）上运行测试套件至少需要 6 个小时。除了分布式文件系统之外，我无权访问任何文件系统，因此不能将引导目录放在其他地方。

我本来打算在GitHub 上将此作为问题提交，但社区指南表明，在 StackOverflow 上发布问题是解决此类问题的更好选择。

我最终在笔记本电脑上一夜之间运行了测试，但我对此并不十分满意。除非这个问题得到解决，否则我将无法继续使用 SBT 来研究基于参与者的测试。

sbt nfs lustre

2015-04-12T18:40:47.893

0 投票

1 回答

875 浏览

parallel-processing - 并行 HDF5：运行 t_mpi 时“make check”挂起

我一直在努力让并行 HDF5 在集群上工作整整一周，但没有任何进展。我希望是否有人可以帮助我解决这个问题。谢谢！

我正在使用 RedHat Enterprise Linux 5.5 x86_64 操作系统在光泽文件系统上构建 Parallel HDF5 (hdf5-1.8.15-patch1)。我尝试用 impi 4.0.2 和 openmpi 1.8 编译它，它成功了，没有任何错误。当我“进行检查”时，它们都通过了串行测试，但在进入并行测试后立即挂起（特别是 t_mpi）。最终，我不得不按 ctrl+C 来结束它。这是输出：

上面两个 MPI 实现的输出是一样的，但是 openmpi 也会输出警告：

警告：您的 OpenFabrics 子系统似乎配置为仅允许注册您的部分物理内存。这可能会导致 MPI 作业以不稳定的性能运行、挂起和/或崩溃。

我已经搜索过这个问题。但我不认为这可能是挂起的原因，原因在最后说明。

我试图找到它挂起的地方。我发现它总是卡在它遇到的第一个集体功能上。例如，在 t_mpi. 它首先挂在：

MPI_File_delete（文件名，MPI_INFO_NULL）；（第 477 行），

在 test_mpio_1w 先生。如果我注释掉这一行，它就会卡在下面的 MPI_File_open 上。但我不确定这些函数内部发生了什么。

我注意到另一件事。我进行“制作”的 HDF5 文件夹位于 NFS 文件系统中，我只能通过位于其他地方的特定文件夹访问光泽。所以，我发现如果我不将 HDF5_PARAPERFIX 设置为我的 luster 文件夹，测试运行得很好，因为默认情况下测试是在本地执行的。所以，我想这应该是与光泽本身有关的问题，而不是内存的限制？

谢谢！

parallel-processing mpi hdf5 lustre

2015-06-11T14:56:54.270

0 投票

1 回答

259 浏览

lustre - 安装 oss 时光泽挂起

我已经安装了并行文件系统“Lustre”以及这张带有 RPM的幻灯片。

已设置节点 A、B。

将 mds 和 mdt 安装到节点 A。它的挂载成功。
但是，在使用 mkfs.lustre 将 oss 格式化到节点 B 之后，我安装了它，但它开始了Infinite waiting。它每 120 秒检索一次此错误。

信息：任务 mount.lustre:1541 被阻止超过 120 秒。未污染 2.6.32-504.8.1.el6_lustre.x86_64 #1 "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" 禁用此消息。

为什么会发生？或者你能给我更好的教程或经验吗？它的 Lustre 版本是 2.7.0。

非常感谢。

lustre

2015-09-21T00:56:12.650

问题标签 [lustre]

Reference