我在 CUDA 编程指南中读到,CUDA 设备中的全局内存是通过 32、64 或 128 位的事务访问的。知道了这一点,比如说,在内存中将一组 float4(128 位)放在一起有什么好处?据我了解,无论float4是分布在内存中还是按顺序分布,事务的数量都是一样的。还是将所有访问合并到一个巨大的交易中?
问问题
108 次
我在 CUDA 编程指南中读到,CUDA 设备中的全局内存是通过 32、64 或 128 位的事务访问的。知道了这一点,比如说,在内存中将一组 float4(128 位)放在一起有什么好处?据我了解,无论float4是分布在内存中还是按顺序分布,事务的数量都是一样的。还是将所有访问合并到一个巨大的交易中?