1

我有两个问题:

(i) 假设线程 X 在 CPU Y 上运行。是否可以使用系统调用 migrate_pages - 甚至更好的 move_pages(或它们的 libnuma 包装器) - 将与 X 关联的页面移动到连接 Y 的节点?

之所以出现这个问题,是因为两个系统调用的第一个参数都是 PID(我需要一个每线程方法来进行一些研究)

(ii) 在 (i) 的肯定回答的情况下,我怎样才能获得某个线程使用的所有页面?我的目标是,例如移动包含数组 M[] 的页面...如何将数据结构与其内存页面“链接”,以便使用上面的系统调用?

额外信息:我正在使用 C 和 pthreads。提前致谢 !

4

2 回答 2

1

您想使用更高级别的libnuma接口而不是低级别的系统调用。

libnuma 库为 Linux 内核支持的 NUMA(非统一内存访问)策略提供了一个简单的编程接口。在 NUMA 架构上,某些内存区域的延迟或带宽与其他区域不同。

可用策略是页面交错(即,以循环方式从系统上的所有节点或节点子集分配)、首选节点分配(即,最好在特定节点上分配)、本地分配(即,分配在当前执行任务的节点上),或仅在特定节点上分配(即,在可用节点的某个子集上分配)。也可以将任务绑定到特定节点。

低级numa_*系统调用的手册页警告您不要使用它们:

链接-lnuma以获取系统调用定义。 libnuma并且包中提供了所需的<numaif.h>标题numactl

但是,应用程序不应直接使用这些系统调用。相反,建议使用包中的numa(3)函数提供的更高级别的接口。numactlnumactl软件包可在<ftp://oss.sgi.com/www/projects/libnuma/download/>。该软件包也包含在一些 Linux 发行版中。numactl-devel一些发行版在单独的包中包含开发库和头文件。

于 2013-08-02T05:35:06.853 回答
1

这是我用于将线程固定到单个 CPU 并将堆栈移动到相应的 NUMA 节点的代码(稍作调整以删除其他地方定义的一些常量)。请注意,我首先正常创建线程,然后SetAffinityAndRelocateStack()从线程内调用以下内容。我认为这比尝试创建自己的堆栈要好得多,因为堆栈对增长有特殊的支持,以防达到底部。

该代码也可以适应从外部对新创建的线程进行操作,但这可能会导致竞争条件(例如,如果线程在其堆栈中执行 I/O),所以我不推荐它。

void* PreFaultStack()
{
    const size_t NUM_PAGES_TO_PRE_FAULT = 50;
    const size_t size = NUM_PAGES_TO_PRE_FAULT * numa_pagesize();
    void *allocaBase = alloca(size);
    memset(allocaBase, 0, size);
    return allocaBase;
}

void SetAffinityAndRelocateStack(int cpuNum)
{
    assert(-1 != cpuNum);
    cpu_set_t cpuset;
    CPU_ZERO(&cpuset);
    CPU_SET(cpuNum, &cpuset);
    const int rc = pthread_setaffinity_np(pthread_self(), sizeof(cpu_set_t), &cpuset);
    assert(0 == rc);

    pthread_attr_t attr;
    void *stackAddr = nullptr;
    size_t stackSize = 0;
    if ((0 != pthread_getattr_np(pthread_self(), &attr)) || (0 != pthread_attr_getstack(&attr, &stackAddr, &stackSize))) {
        assert(false);
    }

    const unsigned long nodeMask = 1UL << numa_node_of_cpu(cpuNum);
    const auto bindRc = mbind(stackAddr, stackSize, MPOL_BIND, &nodeMask, sizeof(nodeMask), MPOL_MF_MOVE | MPOL_MF_STRICT);
    assert(0 == bindRc);

    PreFaultStack();
    // TODO: Also lock the stack with mlock() to guarantee it stays resident in RAM
    return;
}
于 2016-12-29T18:14:40.770 回答