deeplearning4j - DL4j 1.0.0-M1.1 在 CUDA 上运行非常慢

Question

从 DL4J 更新1.0.0-beta7为DL4j 1.0.0-M1.1. 貌似后端用了GPU，但是学习和思考的速度却变得异常的慢。

它似乎已经减慢了 10 倍以上。

CUDA 的 GPU 使用率约为 50%。CPU 使用率非常低。当我们开始学习时，GPU 的 CUDA 核心使用率一下子上升了，所以我们可以确定 GPU 正在被使用。

我不记得了，但我……我用过1.0.0 M1。我认为当时的思维速度没有太大差异。这个版本有一个错误阻止我创建神经网络，所以我没有尝试学习它。

有没有其他人有同样的问题？

1.0.0 beta7 300/秒 1.0.0 M1.1 13.68/秒

1691 [main] INFO org.nd4j.linalg.factory.Nd4jBackend - Loaded [JCublasBackend] backend
4141 [main] INFO org.nd4j.nativeblas.NativeOpsHolder - Number of threads used for linear algebra: 32
4176 [main] INFO org.nd4j.linalg.api.ops.executioner.DefaultOpExecutioner - Backend used: [CUDA]; OS: [Windows 10]
4176 [main] INFO org.nd4j.linalg.api.ops.executioner.DefaultOpExecutioner - Cores: [12]; Memory: [26.7GB];
4176 [main] INFO org.nd4j.linalg.api.ops.executioner.DefaultOpExecutioner - Blas vendor: [CUBLAS]
4185 [main] INFO org.nd4j.linalg.jcublas.JCublasBackend - ND4J CUDA build version: 11.2.142
4186 [main] INFO org.nd4j.linalg.jcublas.JCublasBackend - CUDA device 0: [GeForce GTX 1660 Ti]; cc: [7.5]; Total memory: [6442450944]
4186 [main] INFO org.nd4j.linalg.jcublas.JCublasBackend - Backend build information:
 MSVC: 192930038
STD version: 201703L
CUDA: 11.2.142
DEFAULT_ENGINE: samediff::ENGINE_CUDA
HAVE_FLATBUFFERS
5628 [main] INFO org.deeplearning4j.nn.graph.ComputationGraph - Starting ComputationGraph with WorkspaceModes set to [training: ENABLED; inference: ENABLED], cacheMode set to [NONE]

规格

赢10 64位
GPU 内存 6GB CPU 内存 64GB
Args -Xmx32G -Dorg.bytedeco.javacpp.maxbytes=6G -Dorg.bytedeco.javacpp.maxphysicalbytes=32G

可能对解决问题有用的信息

这是我在思考时的 Windows 任务管理器1.0.0 beta7。除了CUDA核心之外，GPU 0左侧底部的使用量也有所增加。

但是在的情况下1.0.0 M1.1，CUDA 内核的使用量增加了，但使用率GPU 0几乎为零。

deeplearning4j - DL4j 1.0.0-M1.1 在 CUDA 上运行非常慢

可能对解决问题有用的信息

0 回答 0

Related

Reference