7

我有一个顺序用户空间程序(某种内存密集型搜索数据结构)。该程序的性能(以 CPU 周期数衡量)取决于底层数据结构的内存布局和数据缓存大小 (LLC)。

到目前为止,我的用户空间程序已经调到死了,现在我想知道是否可以通过将用户空间代码移入内核(作为内核模块)来获得性能提升。我可以想到以下提高内核空间性能的因素......

  1. 没有系统调用开销(每个系统调用获得多少 CPU 周期)。这不太重要,因为我几乎没有在我的程序中使用任何系统调用,除了在程序启动时分配内存。
  2. 控制调度,我可以创建一个内核线程并让它在给定的内核上运行而不会被丢弃。
  3. 我可以使用 kmalloc 内存分配,因此可以更好地控制分配的内存,还可以通过控制分配的内存来更精确地控制缓存着色。值得尝试吗?

我对内核专家的问题...

  • 我是否错过了上述列表中可以进一步提高性能的任何因素?
  • 是否值得尝试,或者直接知道我不会得到太多的性能改进?
  • 如果内核中的性能提升是可能的,是否有任何估计它可以获得多少增益(任何理论猜测)?

谢谢。

4

2 回答 2

7

关于第 1 点:内核线程仍然可以被抢占,所以除非你进行大量系统调用(你不是),否则这不会给你带来太多好处。

关于第 2 点sched_setaffinity():您可以在 Linux 上使用通过设置其亲和性将线程固定到特定核心。

关于第 3 点:您期待什么额外的控制?您已经可以使用mmap(). 这已经让您可以控制缓存的集合关联性,并且您可以将内联汇编或编译器内在函数用于任何手动预取提示或非临时写入。在内核和用户空间中分配的内存之间的主要区别在于kmalloc()分配有线(不可分页)内存。我不明白这会有什么帮助。

我怀疑您会在使用 SIMD、多线程或进行进一步的算法或内存优化的并行化方面看到更好的投资回报率。

于 2012-06-30T10:05:57.743 回答
5

为您的程序创建一个专用cpuset程序并将所有其他进程移出它。然后使用 FIFO 调度策略将您的进程的优先级提高到实时,例如:

struct sched_param schedparams;
// Be portable - don't just set priority to 99 :)
schedparams.sched_priority = sched_get_priority_max(SCHED_FIFO);
sched_setscheduler(0, SCHED_FIFO, &schedparams);

不要在单核系统上这样做!

保留足够大的堆栈空间alloca(3)并触及所有分配的堆栈内存,映射足够多的堆空间,然后使用mlock(2)mlockall(2)固定进程内存。

即使您的程序是顺序程序,如果在多插槽 Nehalem 或 post-Nehalem Intel 系统或 AMD64 系统上运行,NUMA 效果也会减慢您的程序。使用 API 函数numa(3)来分配和保持尽可能靠近程序执行的 NUMA 节点的内存。

尝试其他编译器 - 其中一些可能比您当前使用的编译器优化得更好。例如,英特尔的编译器在布局指令方面非常激进,以便从乱序执行、流水线和分支预测中受益。

于 2012-06-30T11:30:11.880 回答