我有一个 10 个元素长的列向量 A。我有一个 10 乘 10 的矩阵 B。B 的内存存储主要是列。我想用列向量 A 覆盖 B 中的第一行。
显然,我可以这样做:
for ( int i=0; i < 10; i++ )
{
B[0 + 10 * i] = A[i];
}
我将零留在其中0 + 10 * i
以突出显示 B 使用列主要存储(零是行索引)。
今晚在 CUDA 领域发生了一些恶作剧之后,我想到可能有一个 CPU 函数来执行跨步 memcpy?我想在低级别上,性能将取决于是否存在跨步加载/存储指令,我不记得在 x86 程序集中有这个指令吗?