我需要在 GPU 上处理尺寸为 K x N 的二维数组,其中 K 是一个小数(3、4 或 5),而 N 的值是几百万到几百万。每次将针对一列 K 个元素进行处理,这样每一列都将由内核的单独调用来处理。在 GPU 上表示 K x N 数组的最有效方法是什么:
1)在一维数组中,将一列的K个元素放在连续的位置,这样每个线程都会处理元素K*thread_id, K*thread_id + 1, ..., K*thread_id + K - 1
2)作为K个单独的一维数组,其中每个数组存储1行原始数组;
3) 别的东西
谢谢!