編程語言,作為人與電腦溝通的橋梁,有著重要和深遠的意義。有過電腦編程經驗的人,多少學習或掌握過一到多種編程語言。電腦專業領域的編程語言成百上千種,主流的編程語言也有數十種之多。每種編程語言面向的領域和特性都不盡相同,不過歸根結底是為瞭解決人與電腦之間溝通的效率問題,提高電腦的生產力。想必有 ...
編程語言,作為人與電腦溝通的橋梁,有著重要和深遠的意義。有過電腦編程經驗的人,多少學習或掌握過一到多種編程語言。電腦專業領域的編程語言成百上千種,主流的編程語言也有數十種之多。每種編程語言面向的領域和特性都不盡相同,不過歸根結底是為瞭解決人與電腦之間溝通的效率問題,提高電腦的生產力。想必有不少人對那些主流編程語言的創造者十分傾佩,也相信有不少人會好奇一門編程語言是如何誕生的。那麼如何創造一門編程語言呢?
總的來看,創造一門編程語言需要有以下幾個過程:
(1)設計語言的特性。
(2)定義語言的單詞、語法和語義。
(3)實現編譯器或者解釋器將程式翻譯為電腦底層表示。
(4)生成電腦程式的二進位存儲格式。
(5)完善語言的運行時環境和標準庫。
一、語言特性設計
所謂語言特性,就是編程語言為開發者提供了什麼樣的原子性功能特征。比如是否支持數學表達式計算、字元串處理,是否支持變數、函數和遞歸,是否支持分支、迴圈複合語句等。語言的變數類型是強類型、弱類型,還是動態類型,程式是過程式、函數式,還是面向對象的。是否支持模板、泛型和反射機制,是否支持多線程和併發特性,是否支持錯誤和異常處理機制等等。
語言特性設計是一門編程語言最關鍵的環節,直接決定了語言的基本特征和雛形。當然,這也是最難的一個環節,因為語言設計是面向具體問題領域的,是語言設計者從大量的編程實踐中的獲得的總結和升華。比如C語言設計者希望面向電腦底層,擁有對操作系統和硬體的直接操縱能力。而Python的設計者則希望儘可能地減少操作電腦資源的繁瑣過程,以獲得語言的簡潔性、高度的靈活性和擴展性。SQL的設計者面向具體的數據查詢和分析領域,希望幫助開發者獲得快速檢索和操縱數據的能力。而Go語言的設計者則希望在保留C語言優秀功能的基礎上,擴展編程語言對高併發環境的支持,並擁有垃圾回收和快速編譯的能力。
凡此種種,編程語言特性的設計都是面向具體的問題領域的,是語言設計者構建於開發者和電腦之間的中間層,是對開發過程中重覆功能邏輯的原子性“封裝”,最終的目的是為了提升具體問題領域內的軟體開發效率。
二、單詞、語法和語義
和人類使用的自然語言類似,編程語言也有自身的單詞、語法和語義,專業上稱為詞法記號、語言文法和語義。
常見的詞法記號可以分為數字、字元、字元串、標識符、關鍵字,以及用於連接表達式的運算符、分割語句或者程式段落的界符等符號。這些是編程語言程式的基本單位,通過它們的有序組合,構建出了一門編程語言形形色色的代碼片段。
編程語言的文法是用來描述語言的語法規則的,具體來說是規定詞法記號之間的排列組合的順序與規則。它描述了編程語言程式的基本模式,不符合該模式的詞法記號的排列被擋在了合法語言程式的大門之外。同時,它也是各種編程語言對於開發者最明顯的差異化特征。一個有經驗的開發者可以很容易地通過掃視一段代碼,就能分辨出這是哪種編程語言編寫的電腦程式。
編程語言的語義描述了一段符合語言語法的程式,對於電腦而言的真正含義,是開發者最終要傳達給電腦的意願和指令。語言的語義必須是準確的、無二義性的,編譯器也正是通過語義的指導,將電腦程式翻譯為電腦可識別的表達形式。
三、程式的翻譯
電腦程式是用來供人閱讀和修改的,電腦硬體並不能理解程式內的思想和含義。因此,必須有一個翻譯轉換的過程,將人所表達的意願準確無誤地傳遞給電腦,讓電腦明確並執行人下發的指令。實現這種翻譯工作的工具就是編譯器或解釋器。
對於編譯器來說,它的輸入是人類書寫的電腦語言程式,輸出則是電腦可識別的底層表示。首先,它需要識別出程式中的單詞,即詞法分析。然後,根據單詞的組合模式識別出程式的語法結構,即語法分析。最後,根據不同的語法結構對應的語義,將程式按照每個語法模塊的形式轉換為電腦可識別的指令序列,即語義分析和目標代碼生成。
眾所周知編譯器的實現具有一定的複雜度,其根本原因來自於語言語法的結構靈活性和電腦底層表達形式的多樣性,這也是創造一門編程語言最核心的環節。
四、二進位存儲
編譯器將語言程式翻譯轉換後,需要將轉換後的結果存儲起來,以便電腦在需要的時候將其載入、執行。這裡不可避免的涉及到兩個問題:
(1)轉換後的結果是什麼樣的形式?
(2)轉換後的結果保存在哪裡?
第一個問題描述的是電腦程式被轉換為怎樣的形式,才是電腦可以識別的。由於電腦中實際運行程式的硬體模塊是CPU,因此電腦程式只有被轉換為CPU的二進位指令格式才能被正確識別、執行。比如常見的Intel體系的CISC指令格式、ARM體系的RISC執行格式等。
第二個問題描述的是電腦程式轉化為二進位指令格式後,以什麼樣的方式保存在電腦的磁碟上。由於絕大多數的電腦程式是需要通過運行在電腦硬體之上的操作系統載入運行的,因此電腦程式的二進位表達形式必須以對應操作系統可識別的文件格式存儲。比如常見的Windows操作系統的PE文件格式、Linux操作系統的ELF文件格式等。
五、運行時環境和標準庫
理論上講,一門編程語言如果能提供出完備的操縱操作系統和硬體的原子性功能就已經成功了。但是不提供強大的運行時環境支持和標準庫,是很難讓一門編程語言真正的好用和流行的。沒有人希望簡單地列印一行字元串,還需要使用編程語言提供的基本特性實現調用操作系統提供的列印介面的邏輯。Java語言之所以久興不衰,正是因為它不僅提供了完善的運行時環境和開發庫支持,甚至提供了更強大的開發框架和工具支持。
因此可見,除了完備的語言特性,為開發者提供更方便好用的庫和框架支持,消除軟體構建過程中複雜和重覆的邏輯,才是一門優秀編程語言的長盛之道。
六、自己動手,立即開始!
《自己動手構造編譯系統——編譯、彙編與鏈接》一書詳細闡述了一門編程語言從無到有的過程,從語言的功能特性設計,到詞法、文法、語義分析;從編譯器、彙編器的設計實現,到目標文件的鏈接生成可執行文件;甚至編譯優化器的實現、二進位指令、可執行文件格式以及語言運行時和標準庫的概念,都在書中做了認真細緻地剖析。相信對本書的閱讀,將是一次不錯的獲得知識的體驗!