5

我是一个刚刚开始 CUDA 编程的人。
似乎有SP SM和CUDA架构的概念。
我曾尝试运行示例源的 deviceQuery.cpp 我认为什么有效,SP SM 开发他们的环境,
它已经成为不知道哪些项目 SP 是否是 SM 中的任何项目。

我认为项目“(14)多处理器,(8)CUDA Cores / MP”对SP和SM来说是正确的,但我会正确理解以下内容吗?

SM = 多处理器 = 14
SP = CUDA 内核/MP = 8
CUDA 内核 = 14 * 8 = 112

顺便说一句,deviceQuery.cpp 的结果如下。

CUDA 设备查询(运行时 API)版本(CUDART 静态链接)

检测到 1 个支持 CUDA 的设备

设备 0:“GeForce GTS 240
CUDA 驱动程序版本/运行时版本 5.5 / 5.5
CUDA 功能主要/次要版本号:1.1
全局内存总量:1024 MB(1073741824 字节)
(14)多处理器,(8)CUDA Cores/MP: 112 个 CUDA 核心
GPU 时钟频率:1620 MHz (1.62 GHz)
内存时钟频率:1100 Mhz
内存总线宽度:256 位
最大纹理尺寸大小 (x,y,z) 1D=(8192), 2D=(65536, 32768) , 3
D=(2048, 2048, 2048)
最大分层 1D 纹理大小, (num) 层 1D=(8192), 512 层
最大分层 2D 纹理大小, (num) 层 2D=(8192, 8192), 512 层
常量内存总量:65536 字节
每个块的共享内存总量:16384 字节
每个块可用的寄存器总数:8192
Warp 大小:32
每个多处理器的最大线程数:768
每个块的最大线程数:512
最大维度大小线程块的大小 (x,y,z): (512, 512, 64)
网格大小 (x,y,z) 的最大维度大小: (65535, 65535, 1)
最大内存间距: 2147483647 字节
纹理对齐方式: 256 字节
并发复制和内核执行:是的,带有 1 个复制引擎
内核运行时间限制:是
集成 GPU 共享主机内存:否
支持主机页面锁定内存映射:是
表面对齐要求:是
设备支持 ECC:已禁用
设备支持统一寻址 (UVA):无
设备 PCI 总线 ID/PCI 位置 ID:9 / 0
计算模式: < 默认(多个主机线程可以同时
使用 ::cudaSetDevice() 和设备 )>

4

1 回答 1

11

据此,是正确的:

SM = 流式多处理器

SP = 流处理器 = CUDA 核心

总 SP/CUDA 核心 = SM 数量 * 每个 SM 的 SP/CUDA 核心数量

于 2013-10-17T10:45:12.803 回答