# 一、編譯和鏈接的過程 ## 1、GCC生成可執行文件的總體過程 在日常的開發過程中,IDE總是會幫我們將編譯和鏈接合併,一鍵式的執行,即使在liunx中,使用命令行來編譯一個源文件也只是簡單的一句"gcc hello.c"。我們並沒有過多的關註編譯和鏈接的運行機制和機理,我想從本質出發,深入瞭解 ...
一、編譯和鏈接的過程
1、GCC生成可執行文件的總體過程
在日常的開發過程中,IDE總是會幫我們將編譯和鏈接合併,一鍵式的執行,即使在liunx中,使用命令行來編譯一個源文件也只是簡單的一句"gcc hello.c"。我們並沒有過多的關註編譯和鏈接的運行機制和機理,我想從本質出發,深入瞭解這些機制。對於下麵一段hello.c代碼
#include <stdio.h>
int main()
{
printf("Hello World\n");
return 0;
}
在liunx中,當我們用GCC來編譯時只需要`gcc hello.c`即可生成`a.out`文件(並不是所有可執行文件都是`.out`),使用`./a.out`即可運行輸出。實際上,上述的過程可以分解為四個步驟,分別是預處理(Prepressing)、編譯(Compilation)、彙編(Assembly)和鏈接(Linking)。
GCC編譯過程分解
1.1、預編譯(Prepressing)
預編譯是指將源代碼文件`(hello.c)`和相關頭文件`(stdio.h)`等被**預編譯器cpp**預編譯成一個`.i`文件。需要註意的是對於C++程式來說,它的源代碼文件的擴展名可能是`.cpp或.cxx`,頭文件的擴展名可能是`.hpp`,而預編譯後的文件擴展名是`.ii`。第一步預編譯的過程相當於如下命令(E表示只進行預編譯):` gcc -E hello.c -o hello.i 或者 cpp hello.c > hello.i`
預編譯過程主要處理那些源代碼文件中的以“#”開始的預編譯指令。比如“#include”、“#define”等,主要處理規則如下:
-
將所有的“define”刪除,並且展開所有的巨集定義。
-
處理所有條件預編譯指令,比如“#if”、“#ifdef'”、“#elif”、“#else”、“#endif'”。
-
處理“#include”預編譯指令,將被包含的文件插入到該預編譯指令的位置。註意,這個過程是遞歸進行的,也就是說被包含的文件可能還包含其他文件。
-
刪除所有的註釋。
-
添加行號和文件名標識,比如#2“hello.c”2,以便於編譯時編譯器產生調試用的行號信息及用於編譯時產生編譯錯誤或警告時能夠顯示行號。
-
保留所有的#pragma編譯器指令,因為編譯器要使用它們。
# 1 "hello.c"
# 1 "<built-in>"
# 1 "<command-line>"
# 1 "/usr/include/stdc-predef.h" 1 3 4
# 1 "<command-line>" 2
# 1 "hello.c"
# 1 "/usr/include/stdio.h" 1 3 4
# 27 "/usr/include/stdio.h" 3 4
# 1 "/usr/include/features.h" 1 3 4
# 375 "/usr/include/features.h" 3 4
# 1 "/usr/include/sys/cdefs.h" 1 3 4
# 392 "/usr/include/sys/cdefs.h" 3 4
# 1 "/usr/include/bits/wordsize.h" 1 3 4
# 393 "/usr/include/sys/cdefs.h" 2 3 4
# 376 "/usr/include/features.h" 2 3 4
# 399 "/usr/include/features.h" 3 4
# 1 "/usr/include/gnu/stubs.h" 1 3 4
# 10 "/usr/include/gnu/stubs.h" 3 4
# 1 "/usr/include/gnu/stubs-64.h" 1 3 4
# 11 "/usr/include/gnu/stubs.h" 2 3 4
# 400 "/usr/include/features.h" 2 3 4
# 28 "/usr/include/stdio.h" 2 3 4
部分展示
經過預編譯後的.i
文件不包含任何巨集定義,因為所有的巨集已經被展開,並且包含的文件也已經被插入到.i
文件中。所以當我們無法判斷巨集定義是否正確或頭文件包含是否正確時,可以查看預編譯後的文件來確定問題。
1.2、編譯(Compilation)
編譯過程就是把預處理完的文件進行一系列詞法分析、語法分析、語義分析及優化後生產相應的彙編代碼文件,這個過程往往是我們所說的整個程式構建的核心部分,也是最複雜的部分之一。上面的編譯過程相當於如下命令:
gcc -S hello.i -o hello.s
現在版本的GCC把預編譯和編譯兩個步驟合併成一個步驟,使用一個叫做cc1的程式來完成這兩個步驟。這個程式位於`usr/lib/gcc/i486-linux-gnu/4.1/`,我們也可以直接調用 ccl來完成它:
usr/lib/gcc/i486-linux-gnu/4.1/cc1 hello.c
或者gcc -S hello.c -o hello.s
都可以得到彙編輸出文件helIo.s。對於C語言的代碼來說,這個預編譯和編譯的程式是ccI,對於C++來說,有對應的程式叫做cclplus:Objective-C是cclobj::fortran是f77l;Java是 jc1。所以實際上gcc這個命令只是這些後臺程式的包裝,它會根據不同的參數要求去調用預編譯編譯程式cc1、彙編器as、鏈接器ld。
.file "hello.c"
.section .rodata
.LC0:
.string "hello world"
.text
.globl main
.type main, @function
main:
.LFB0:
.cfi_startproc
pushq %rbp
.cfi_def_cfa_offset 16
.cfi_offset 6, -16
movq %rsp, %rbp
.cfi_def_cfa_register 6
movl $.LC0, %edi
movl $0, %eax
call printf
movl $0, %eax
popq %rbp
.cfi_def_cfa 7, 8
ret
.cfi_endproc
.LFE0:
.size main, .-main
.ident "GCC: (GNU) 4.8.5 20150623 (Red Hat 4.8.5-44)"
.section .note.GNU-stack,"",@progbits
展示hello.s中的內容
1.3 彙編
彙編器是將彙編代碼轉變成機器可以執行的指令,每一個彙編語句幾乎都對應一條機器指令。所以彙編器的彙編過程相對於編譯器來講比較簡單,它沒有複雜的語法,也沒有語義,也不需要做指令優化,只是根據彙編指令和機器指令的對照表一一翻譯就可以了,“彙編”這個名字也來源於此。上面的彙編過程我]可以調用彙編器as來完成:
as hello.s -o hello.o
或者gcc -c hello.s -o hello.o
或者使用gcc命令從C源代碼文件開始,經過預編譯、編譯和彙編直接輸出目標文件(Object File):gcc -c hello.c -o hello.o
1.4 鏈接
鏈接通常是一個讓人比較費解的過程,為什麼彙編器不直接輸出可執行文件而是輸出一個目標文件呢?鏈接過程到底包含了什麼內容?為什麼要鏈接?這恐怕是很多讀者心中的疑惑。正是因為這些疑惑總是揮之不去,所以我們特意用這一章的篇幅來分析鏈接,具體地說分析靜態鏈接的章節。下麵讓我們來看看怎麼樣調用ld才可以產生一個能夠正常運行的 HelloWorld程式:
$ld -static /usr/lib/crt1.o /usr/lib/crti.o /uar/lib/gcc/1486-linux-gnu/4.1.3/crtbeginT.o -L/usr/lib/gcc/1486-linux-gnu/4.1.3 -L/usr/lib -L/lib hello.o --start-group-lgcc -lgcc_eh -1c --end-group /uar/lib/gcc/1486-linux-gnu/4.1.3/crtend.o /usr/lib/crtn.o
如果把所有的路徑都省略掉,那麼上面的命令就是:
ld -static crt1.o crti.o crtbeginT.o hello.o -start-group -lgcc -lgcc_eh -lc-end-group crtend.o crtn.o
可以看到,我們需要將一大堆文件鏈接起來才可以得到“a.out”,即最終的可執行文件。看了這行複雜的命令,可能很多讀者的疑惑更多了,ctl.o、crti.o、crtbegin T.o、crtend.o、 crtn.o這些文件是什麼?它們做什麼用的?-lgcc-lgcc_ehlc這些都是什麼參數?為什麼要使用它們?為什麼要將它們和hello.o鏈接起來才可以得到可執行文件?等等。後面我們會陸續講解
參考:《程式員的自我修養》俞甲子