我不确定如何使用从 hwloc 检索到的物理 ID。例如,我看到以下内容,但如果我将rank 0=10.0.2.4 slot=1:8
其放入 rankfile 中,则会收到一个8
不存在的错误。但是,rank 0=10.0.2.4 slot=1:p8
运行没有问题,但我不知道我是否引用了PU#8
或Core P#8
. 如何使用 rankfile 绑定到特定核心或特定硬件线程?有什么方法可以调试吗?
[hamiltont@4 latency]$ hwloc-ls -p
Machine (36GB)
NUMANode P#0 (18GB) + Socket P#1 + L3 (12MB)
L2 (256KB) + L1 (32KB) + Core P#0
PU P#0
PU P#12
L2 (256KB) + L1 (32KB) + Core P#1
PU P#2
PU P#14
L2 (256KB) + L1 (32KB) + Core P#2
PU P#4
PU P#16
L2 (256KB) + L1 (32KB) + Core P#8
PU P#6
PU P#18
L2 (256KB) + L1 (32KB) + Core P#9
PU P#8
PU P#20
L2 (256KB) + L1 (32KB) + Core P#10
PU P#10
PU P#22
NUMANode P#1 (18GB) + Socket P#0 + L3 (12MB)
L2 (256KB) + L1 (32KB) + Core P#0
PU P#1
PU P#13
L2 (256KB) + L1 (32KB) + Core P#1
PU P#3
PU P#15
L2 (256KB) + L1 (32KB) + Core P#2
PU P#5
PU P#17
L2 (256KB) + L1 (32KB) + Core P#8
PU P#7
PU P#19
L2 (256KB) + L1 (32KB) + Core P#9
PU P#9
PU P#21
L2 (256KB) + L1 (32KB) + Core P#10
PU P#11
PU P#23
我认为这个问题与我要问的问题非常接近,但并不完全相同。