问题标签 [nvidia-titan]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nvidia - Titan Z 与 K40 处理器?
我正在使用 GPU 进行科学计算。最近 Nvidia 发布了其旗舰产品 GeForce Titan Z。我想知道这款处理器如何与 Tesla K40(另一个 NVIDIA 产品)相抗衡。我已经检查了规格,但很想知道这两个处理器之间的任何基准测试,或者 Titan Z 用于科学计算应用程序的能力。我还想知道从编程的角度来看,Titan Z 应该被视为单个 GPU 还是两个 GPU。
提前致谢, 问候, Sakthi K
c++ - cl::Image3D segfaults on nVidia TITAN black 但不是 Intel openCL 设备?
所有,我有以下代码行用于在 OpenCL 中设置 3D 图像:
当我使用 Intel OpenCL CPU 驱动程序时,代码运行良好(通过使用 CL_DEVICE_TYPE_CPU 创建上下文),但是当我使用带有 TITAN black 的 nVidia 驱动程序时(通过使用 CL_DEVICE_TYPE_GPU 创建上下文),代码运行良好。
所有这些都在 RHEL6.4 上,内核为 2.6.32-358,使用最新的 nVidia 驱动程序,使用英特尔 OpenCL 运行时 14.1_x64_4.4.0.118 和 2014_4.4.0.134_x64 英特尔 OpenCL SDK。
所有其他代码似乎都在 nVidia 设备上运行。我可以编译内核、创建上下文、缓冲区等,但是这个构造函数似乎失败了。我使用 cl::Device::getInfo 检查了 Image3D 允许的最大尺寸,它报告 HxWxD 限制为 4096x4096x4096,因此我的 16x16x1024 图像尺寸远低于限制。
我还检查以确保 CL_R 和 CL_FLOAT 类型是受支持的格式,它们似乎是。
起初我以为它是因为试图复制主机内存而失败的,但是在我将读取的图像排入队列之前就发生了段错误。
我能够从我的 gdb 回溯中确定的最好的问题是问题出现在 CL/cl.hpp 的第 4074 行:
如您所见,Image3D 的构造函数的宽度和高度参数看起来很奇怪,但我不确定这些是真实值,也不是由于编译器而优化的值。
我的问题是:
关于 nVidia 卡,我做错了什么,不适用于 Intel CPU OpenCL 驱动程序?英特尔 SDK 和 nVidia OpenCL ICD 之间是否存在已知的二进制不兼容?
python - 如何防止 tensorflow 分配整个 GPU 内存?
我在一个计算资源共享的环境中工作,也就是说,我们有几台服务器机器,每台机器都配备了一些 Nvidia Titan X GPU。
对于中小型模型,Titan X 的 12 GB 通常足以让 2-3 人在同一个 GPU 上同时运行训练。如果模型足够小,以至于单个模型不能充分利用 GPU 的所有计算单元,那么与一个接一个地运行训练过程相比,这实际上会导致加速。即使在并发访问 GPU 确实会减慢个人训练时间的情况下,让多个用户同时在 GPU 上训练的灵活性仍然很好。
TensorFlow 的问题在于,默认情况下,它会在启动时分配全部可用的 GPU 内存。即使对于一个小型的两层神经网络,我看到所有 12 GB 的 GPU 内存都用完了。
有没有办法让 TensorFlow 只分配 4 GB 的 GPU 内存,如果知道这对于给定模型来说已经足够了吗?
deep-learning - 如何确定测试批量大小以充分利用 NVIDIA Titan X
在训练深度学习模型时,我发现如果我将训练和验证(测试)批量大小设置为相同,例如 32、64、...、512,GPU 并没有得到充分利用。
然后我检查了 NVIDIA Titan X 规格:
- NVIDIA CUDA® 内核:3584
- 内存:12GB GDDR5X
为了减少 CNN 模型的测试时间,我想尽可能多地增加一个批次中的样本数量。我试过了:
- 将每批次的样本数设置为 3584,cuda out of memory 错误。
- 将每批次的样本数设置为 2048,cuda out of memory 错误。
- 将每批次的样本数设置为 1024,有效。但我不确定 GPU 是否被充分利用。
问题:
如何轻松选择每批次的样本数量以充分利用 GPU 进行深度模型前向运算?
tensorflow - 使用汇总操作训练 TensorFlow 模型比不使用汇总操作要慢得多
我正在使用带有 GPU Nvidia Titan X 的 TensorFlow r1.0 训练一个类似 Inception 的模型。
我添加了一些摘要操作来可视化训练过程,使用代码如下:
当我运行这些操作时,训练一个 epoch 的时间成本约为 400 秒。但是当我关闭这些操作时,训练一个 epoch 的时间成本只有 90 秒。
如何优化图表以最小化汇总操作的时间成本?
tensorflow - Nvidia Titan X (Pascal) TensorFlow Windows 10
我的操作系统是 Windows 10,我在 CPU 上使用带有 Tensorflow 后端的 Keras。我想购买“Nvidia Titan x (Pascal)”GPU,因为它推荐用于 Nvidia 网站上的 tensorflow:
http://www.nvidia.com/object/gpu-accelerated-applications-tensorflow-configurations.html
他们推荐 Ubuntu 14.04 作为操作系统。
有人知道我是否可以在我的 Windows 10 机器上的 Nvidia Titan x (Pascal) GPU 上使用 Tensorflow?非常感谢。
tensorflow - GPU Nvidia-Titan X 需要太多时间来训练我的网络。适用于 tf cnn-benchmarks
我的代码粘贴在下面:
上面的代码以每个 epoch 46 秒的速度运行,对于给定的 600 个数据点样本,我觉得这相当慢。我的输入是一个大小为 180 MB 的 hdf5 文件。我运行了 CNN Bechmark 测试,它似乎工作正常(如下所示),看起来我的输入或我传递它的方式有些磨损。
如何调试输入的处理方式?
gpu - cudaError_t 1 : 从 'cublasCreate(&handle_)' 返回“__global__ 函数调用未配置”
我在 SGE 集群上使用 Kaldi 运行 ASR 实验,该集群由两个带有 TITAN XP 的工作站组成。随机我遇到以下问题:
错误 (nnet3-train[5.2.62~4-a2342]:FinalizeActiveGpu():cu-device.cc:217) cudaError_t 1:“__global__ 函数调用未配置”从 'cublasCreate(&handle_)' 返回
我猜 GPU 驱动程序或硬件有问题。
你能提供一些帮助吗?
cuda - nVidia Titan V 是否支持 GPUDirect?
我想知道是否有人可以帮助我确定 nVidia 的新 Titan V 是否支持 GPUDirect。据我所知,它似乎仅限于 Tesla 和 Quadro 卡。
感谢您抽出时间来阅读。
tensorflow - Titan X上的Tensorflow 1.8:CUDA_ERROR_INVALID_DEVICE
我有一个带有 2 个 nvidia GPU 的 ubuntu 16.04 安装:
nvidia-smi
输出:
我已按照https://www.tensorflow.org/install/install_linux#InstallingAnaconda中的步骤为 GPU 安装基于 anaconda 的 tensoflow。但是,如果我启动 TF 会话,我会收到以下错误:
我错过了什么?如何摆脱这个错误?