python - 使用 python 从 C 代码中提取函数名称及其注释（以了解 Linux 内核）

Question

背景信息

我刚刚开始学习有关驱动程序和 linux 内核的知识。我想了解用户write()和read()工作方式。所以我开始使用ftrace来希望看到函数的路径。但是像下面这样的单个程序的跟踪是“巨大的”。

int main() {
    int w;
    char buffer[] = "test string mit 512 byte";
    int fd = open("/dev/sdd",O_DIRECT | O_RDWR | O_SYNC);
    w = write(fd,buffer,sizeof(buffer));
}

我也不知道我可以过滤哪些函数，因为我不了解 Linux 内核并且我不想丢掉一些重要的东西。

所以我开始研究 function_graph 跟踪。这是一个片段。

 [...]
 12)   0.468 us    |            .down_write();
 12)   0.548 us    |            .do_brk();
 12)   0.472 us    |            .up_write();
 12)   0.762 us    |            .kfree();
 12)   0.472 us    |            .fput();
 [...]

我看到了这些.down_write()，.up_write()我想，这正是我要搜索的。所以我查了一下。down_write() 源代码：

 /*
 * lock for writing
 */
 void __sched down_write(struct rw_semaphore *sem)
 {
       might_sleep();
       rwsem_acquire(&sem->dep_map, 0, 0, _RET_IP_);

       LOCK_CONTENDED(sem, __down_write_trylock, __down_write);
 }

但事实证明，这只是锁定和释放锁定。然后我开始为我写一个小参考，所以我不必总是查找这些东西，因为它好像有超过 9000 个。然后我有了想法，为什么不，解析这些函数和它们的注释并将它们写在跟踪文件中的函数后面？像这样：

 [...]
 12)   0.468 us    |            .down_write(); lock for writing
 12)   0.548 us    |            .do_brk(); 
 12)   0.472 us    |            .up_write(); release a write lock
 12)   0.762 us    |            .kfree();
 12)   0.472 us    |            .fput();
 [...]

主要问题

所以我开始思考如何才能做到这一点。我想用 python 来做，因为我觉得它最舒服。

1.问题
为了匹配C函数和注释，我必须定义和实现一个递归匹配语法:(

2. 问题
有些函数只是包装器，没有注释。例如do_brk()换__do_brk()行，评论仅在__do_brk()

所以我想，也许还有其他的评论来源。也许是文档？也有可能，这个使用 python 的“文档生成”已经有人实现了。

还是我理解系统的方式read() write()非常不智能？你能给我提示我应该如何深入挖掘吗？

非常感谢您阅读，
费边

score 3 · Accepted Answer

在实践中解析注释是相当困难的。解析内核代码并不是特别容易。

首先，您应该准确了解linux 内核中的系统调用是什么，以及应用程序如何使用它们。Linux Assembly HowTo有很好的解释。

然后，您应该了解 Linux 内核的组织结构。我强烈建议阅读一些关于这方面的好书。

使用自动工具探索内核源代码需要大量工作（几个月，而不是几天）。您可以考虑使用coccinelle工具（用于所谓的“语义补丁”）。您还可以考虑使用插件自定义 GCC 编译器，或者更好的是使用MELT扩展

^{（MELT 是一种扩展 GCC 的高级领域特定语言；我是它的主要设计者和实现者）。}

如果使用 GCC，您将在中端获得 GCC 内部表示和处理的所有功能（但在此阶段注释会丢失）。

你想做的事情可能比你最初想的要雄心勃勃得多。另请参阅 Alexandre Lissy 的工作，例如模型检查 linux 内核以及他将在2012 年 Linux 研讨会（2012 年7 月）上发表的论文

score 0 · Accepted Answer

是的，你的方法是对的：学习内核，总是从系统调用开始。内核代码 = 以比普通代码更高的权限执行的代码。英特尔有大约 18 个（？？不确定）特权指令集。

http://duartes.org/gustavo/blog/post/cpu-rings-privilege-and-protection/

http://en.wikipedia.org/wiki/Privilege_level

并且当用户代码从较低权限级别转换到较高权限以执行这些特殊指令时，它通过标准的系统调用机制。

执行一个简单的“strace ls”，您可以看到许多系统调用正在执行：每个系统调用都必须转换到内核以执行某些任务。

编写一个简单的脚本，例如（取决于内核版本，对于您的特定内核，请参阅 /sys/kernel/debug/tracing/README）：

echo function > /sys/kernel/debug/tracing/current_tracer
cat /sys/kernel/debug/tracing/current_tracer

echo 1 > /sys/kernel/debug/tracing/tracing_on
ls /tmp
cat /sys/kernel/debug/tracing/trace 
echo 0 > /sys/kernel/debug/tracing/tracing_on

我们将得到以下输出（删除所有非 ls ftrace 输出后）：

http://pastebin.com/vEk2NrDQ

现在上面的 ftrace 输出显示了从用户空间执行“ls”时执行的实际内核函数。并非每个功能都需要理解或很重要。也不是关于学习内核 API 本身。但更重要的是很多概念：如何在不同的 CPU、不同的进程、不同类型的同步原语等之间共享资源。

享受每一个小小的步骤......一次一个。

python - 使用 python 从 C 代码中提取函数名称及其注释（以了解 Linux 内核）

背景信息

主要问题

2 回答 2

Related

Reference