3

我决定尝试使用文章What Every Programmer Should Know About Memory ( PDF )中的代码示例,并看到与第 6.2 节不同的结果。

这些程序正在做矩阵乘法,我做了一点改动并将它们放在https://github.com/herberteuler/cpumemory

在论文中,据说从matrix1.c到的优化matrix2.c,通过转置第二个矩阵,可以节省大约 76.6% 的 cpu 周期(第 6.2.1 节,第 50 页):

             Original      Transposed
Cycles    16,765,297,870  3,922,373,010
Relative       100%           23.4%

但是在我的节点上,结果与上面的列表有很大的不同。

这是我的内核和 CPU 信息:

$ uname -a
Linux herberteuler 3.9-1-amd64 #1 SMP Debian 3.9.8-1 x86_64 GNU/Linux
$ cat /proc/cpuinfo
processor       : 0
vendor_id       : GenuineIntel
cpu family      : 6
model           : 23
model name      : Intel(R) Core(TM)2 Duo CPU     P8600  @ 2.40GHz
stepping        : 10
microcode       : 0xa07
cpu MHz         : 2401.000
cache size      : 3072 KB
physical id     : 0
siblings        : 2
core id         : 0
cpu cores       : 2
apicid          : 0
initial apicid  : 0
fpu             : yes
fpu_exception   : yes
cpuid level     : 13
wp              : yes
flags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx lm constant_tsc arch_perfmon pebs bts rep_good nopl aperfmperf pni dtes64 monitor ds_cpl vmx smx est tm2 ssse3 cx16 xtpr pdcm sse4_1 xsave lahf_lm ida dtherm tpr_shadow vnmi flexpriority
bogomips        : 4788.33
clflush size    : 64
cache_alignment : 64
address sizes   : 36 bits physical, 48 bits virtual
power management:

processor       : 1
vendor_id       : GenuineIntel
cpu family      : 6
model           : 23
model name      : Intel(R) Core(TM)2 Duo CPU     P8600  @ 2.40GHz
stepping        : 10
microcode       : 0xa07
cpu MHz         : 800.000
cache size      : 3072 KB
physical id     : 0
siblings        : 2
core id         : 1
cpu cores       : 2
apicid          : 1
initial apicid  : 1
fpu             : yes
fpu_exception   : yes
cpuid level     : 13
wp              : yes
flags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx lm constant_tsc arch_perfmon pebs bts rep_good nopl aperfmperf pni dtes64 monitor ds_cpl vmx smx est tm2 ssse3 cx16 xtpr pdcm sse4_1 xsave lahf_lm ida dtherm tpr_shadow vnmi flexpriority
bogomips        : 4788.33
clflush size    : 64
cache_alignment : 64
address sizes   : 36 bits physical, 48 bits virtual
power management:

这是执行matrix1and的结果matrix2

$ ./matrix1
cpu cycles: 18071621964
$ ./matrix2
cpu cycles: 15716582775

为什么我没有matrix2像预期的那样看到 CPU 周期的大幅减少?

提前致谢。

4

0 回答 0