0

我做了一个检查矩阵效率的应用程序。我使用各种方法(例如更改循环、2/3 循环、openmp 等)。剩下一件事:我必须检查数据预取。

代码:

#define SIZE 5000

for(int i=0;i<SIZE;i++)
 for(int j=0;j<SIZE;j++)
   mul+=tab[i][j]

通常单独处理prefetch数据(当我们在单行并递增时j),但并非总是如此(例如tab[0][0]从不prefeched或当我们转到下一行时(loop i++ ,tab[i][0]))。在我们计算它们之前,如何更改此代码以帮助proc prefetch来自tab[0][0], tab[1][0],tab[2][0],tab[3][0]等的数据?

4

1 回答 1

1

您可以使用预取内置函数:

无效_m_prefetch(无效*);

您希望在您所在的位置之前至少预取 128 个字节。您可能需要展开循环,以便它在每次预取之间完成正确的工作量,否则您将在实际的预取指令上浪费时钟周期。

但是,我怀疑处理器会自行完成不错的预取工作,因为您正在“直接”读取内存[假设选项卡是二维编译时数组,而不是运行时构建的数组]。

于 2013-01-20T14:02:47.530 回答