61

在 C 中,假设您有一个名为variable_name. 假设它位于0xaaaaaaaa,并且在该内存地址处,您有整数 123。换句话说,variable_name包含 123。

我正在寻找有关“variable_name位于0xaaaaaaaa”的措辞的说明。编译器如何识别字符串“variable_name”与该特定内存地址相关联?字符串“variable_name”是否存储在内存中的某个位置?编译器是否只是在看到它时替换variable_name0xaaaaaaaa,如果是这样,它是否不必使用内存来进行替换?

4

5 回答 5

93

编译器运行后变量名不再存在(除非在共享库中导出全局变量或调试符号等特殊情况)。整个编译过程旨在获取源代码所代表的那些符号名称和算法,并将它们转换为本地机器指令。所以是的,如果你有一个全局的variable_name,并且编译器和链接器决定将它放在0xaaaaaaaa,那么无论它在代码中使用什么,它都将通过该地址访问。

因此,要回答您的字面问题:

编译器如何识别字符串“variable_name”与该特定内存地址相关联?

工具链(编译器和链接器)共同为变量分配内存位置。跟踪所有引用是编译器的工作,链接器稍后会放入正确的地址。

字符串是否"variable_name"存储在内存中的某个位置?

仅在编译器运行时。

编译器是否只是在看到它时替换variable_name0xaaaaaaaa,如果是这样,它是否不必使用内存来进行替换?

是的,这几乎就是发生的事情,除了链接器是一个两阶段的工作。是的,它使用内存,但它是编译器的内存,而不是程序运行时的任何东西。

一个例子可以帮助你理解。让我们试试这个程序:

int x = 12;

int main(void)
{
    return x;
}

很简单,对吧?好的。让我们拿这个程序,编译它,看看反汇编:

$ cc -Wall -Werror -Wextra -O3    example.c   -o example
$ otool -tV example
example:
(__TEXT,__text) section
_main:
0000000100000f60    pushq   %rbp
0000000100000f61    movq    %rsp,%rbp
0000000100000f64    movl    0x00000096(%rip),%eax
0000000100000f6a    popq    %rbp
0000000100000f6b    ret

看到那条movl线了吗?它正在获取全局变量(在这种情况下,以指令指针相对的方式)。不再赘述x

现在让我们让它更复杂一点,并添加一个局部变量:

int x = 12;

int main(void)
{  
    volatile int y = 4;
    return x + y;
}

这个程序的反汇编是:

(__TEXT,__text) section
_main:
0000000100000f60    pushq   %rbp
0000000100000f61    movq    %rsp,%rbp
0000000100000f64    movl    $0x00000004,0xfc(%rbp)
0000000100000f6b    movl    0x0000008f(%rip),%eax
0000000100000f71    addl    0xfc(%rbp),%eax
0000000100000f74    popq    %rbp
0000000100000f75    ret

现在有两条movl指令和一条addl指令。您可以看到第一个movl正在初始化y,它决定将在堆栈上(基指针 - 4)。然后下一个movl将全局x放入寄存器eax中,然后addl添加y到该值。但正如您所见,文字xy字符串不再存在。它们对程序员来说是一种便利但计算机在执行时肯定不会关心它们。

于 2013-01-30T19:44:51.430 回答
13

AC 编译器首先创建一个符号表,其中存储了变量名和它在内存中的位置之间的关系。正如其他人所说,编译时,它使用此表将变量的所有实例替换为特定的内存位置。您可以在 Wikipedia 页面上找到更多信息。

于 2013-01-30T19:47:37.867 回答
8

所有变量都由编译器替换。首先它们被引用替换,然后链接器放置地址而不是引用。

换句话说。编译器运行后,变量名不再可用

于 2013-01-30T19:45:31.903 回答
6

这就是所谓的实现细节。虽然您所描述的是我曾经使用过的所有编译器的情况,但并不一定是这种情况。AC 编译器可以将每个变量放在哈希表中并在运行时(或类似的东西)查找它们,事实上早期的 JavaScript 解释器正是这样做的(现在,他们进行即时编译,结果更加原始。)

特别是对于 VC++、GCC 和 LLVM 等常见编译器:编译器通常会将变量分配给内存中的某个位置。全局或静态作用域的变量得到一个在程序运行时不会改变的固定地址,而函数内的变量得到一个堆栈地址——即相对于当前堆栈指针的地址,每次函数执行时堆栈指针都会改变叫。(这是过于简单化了。)一旦函数返回,堆栈地址就会变得无效,但具有有效使用零开销的好处。

一旦为变量分配了地址,就不再需要变量的名称,因此将其丢弃。根据名称的种类,名称可能在预处理时(对于宏名称)、编译时(对于静态和局部变量/函数)和链接时(对于全局变量/函数)被丢弃。如果导出符号 (使其对其他程序可见,以便他们可以访问它),该名称通常会保留在“符号表”中的某个位置,这确实占用了微不足道的内存和磁盘空间。

于 2013-01-30T19:46:46.153 回答
4

编译器是否只是在看到它时将 variable_name 替换为 0xaaaaaaaa

是的。

如果是这样,它是否必须使用内存来进行替换?

是的。但它是编译器,它编译了你的代码之后,你为什么要关心内存呢?

于 2013-01-30T19:45:35.810 回答