我一直在尝试通过https://www.youtube.com/watch?v=FXsgmwpRExM上给出的 HPC 环境中的 Dask 教程。
我已经设法在 Singularity 映像中安装了我需要的所有软件包,然后使用以下命令在 LSF 集群上运行该映像:bsub -ISs -q "par-multi" -J "ipy_test" -n 16 singularity shell container.img
之后,我使用简单的ipython
命令启动 ipython,然后使用 dask_jobqueue 导入 LSFClusterfrom dask_jobqueue import LSFCluster
然后,我通过调用设置了我的测试集群,cluster = LSFCluster(cores=2, memory="1 GB")
并通过调用设置了 2 个工作人员cluster.scale(2)
,此时我得到以下堆栈跟踪:
tornado.application - 错误 - 回调 Traceback 中的异常(最近一次调用最后一次):文件“/usr/lib64/python2.7/site-packages/tornado/ioloop.py”,第 758 行,在 _run_callback ret = callback() 文件中“/usr/lib64/python2.7/site-packages/tornado/stack_context.py”,第 300 行,在 null_wrapper 返回 fn(*args, **kwargs) 文件“/usr/lib/python2.7/site-packages /dask_jobqueue/core.py”,第 416 行,在 scale_up self.start_workers(n - self._count_active_and_pending_workers()) 文件“/usr/lib/python2.7/site-packages/dask_jobqueue/core.py”,第 330 行,在 start_workers out = self._submit_job(fn) 文件“/usr/lib/python2.7/site-packages/dask_jobqueue/lsf.py”,第 114 行,在 _submit_job 返回 self._call(piped_cmd, shell=True) 文件“ /usr/lib/python2.7/site-packages/dask_jobqueue/core.py", line 383, in _call cmd_str, out, err)) RuntimeError: Command exited with non-zero exit code. Exit code: 127 Command: bsub < /tmp/tmpipG68P.sh 2> /dev/null 标准输出:标准错误:
有人知道我可能会出错吗?
谢谢。