Stanford公開課《編譯原理》學習筆記(1~4課)

来源:https://www.cnblogs.com/dashnowords/archive/2019/09/19/11552517.html
-Advertisement-
Play Games

示例代碼托管在: "http://www.github.com/dashnowords/blogs" 博客園地址: "《大史住在大前端》原創博文目錄" 華為雲社區地址: "【你要的前端打怪升級指南】" [TOC] B站地址: "【編譯原理】" Stanford公開課: "【Stanford大學公開課 ...


目錄

示例代碼托管在:http://www.github.com/dashnowords/blogs

博客園地址:《大史住在大前端》原創博文目錄

華為雲社區地址:【你要的前端打怪升級指南】

B站地址:【編譯原理】

Stanford公開課:【Stanford大學公開課官網】

課程里涉及到的內容講的還是很清楚的,但個別地方有點脫節,任何看不懂卡住的地方,請自行查閱經典著作《Compilers——priciples, Techniques and Tools》(也就是大名鼎鼎的龍書)的對應章節。

一. 編譯的基本流程

完整的編譯的5個基本步驟包括lexcical anlysis,parse,sematic,optimize,code generate。課程中並沒有使用複雜的編程語言,而是一種用於課堂教學的自發明語言COOL,很明顯老師為它寫好了編譯器程式。

二. Lexical Analysis(詞法分析階段)

任務:將字元串分解成為[Type, (Value)]元組的形式的詞法單元。

“龍書”里的示例更為直觀,例如表達式語句 E = M * C ** 2進行詞法分析後會得到如下的類似結果:

[id,指向符號表中E的條目的指針]

[assign_op]

[id,指向符號表中M的條目的指針]

[mult_op]

[id,指向符號表中C的條目的指針]

[exp_op]

[number,整數值2]

詞法分析基本需要經歷如下幾個階段:

Lexical Specification——>Regular expressions——>NFA——>DFA——>Table-driven Implementation of DFA

2.1 Lexical Specification(分詞原則)

COOL中的基本Type包括如下幾個類別:

  • Indentifier標識符-指以字母開頭後續為若幹個字母或數字的字元組
  • Integer-指一組非空的數字字元
  • Keyword- 指語言中的關鍵詞,例如ifelse
  • Whitespace- 指一組非空的空格字元或換行符或製表符

很多程式設計語言中的分詞原則基本都會覆蓋關鍵字運算符標識符常量標點符號,他們也會在後面的實現中被作為終止符集合,課程板書中也提供了COOL分詞原則的類正則形式。

分詞時類型的正則匹配預設為貪婪模式,即匹配更多的字元。詞法單元也具備一定的優先順序次序(通常也是代碼邏輯的實現順序),例如if從正則上來判斷既符合Keywords也符合Identifier,此時該單元的類型就應該標記為Keywords。這個階段就完成了從Lecical Specification——>Regular expressions的部分。

2.2 Finite Automata (典型分詞演算法-有窮自動機)

FA是一個可以自動識別詞法單元的機器,它是一個狀態轉換圖,“有限”是指它包含的狀態是有限的,一個狀態讀入一個字元後,後繼的狀態可能為:

  • 後繼狀態為自身
  • 後繼狀態只有一個
  • 後繼狀態有多個

如果每次轉換後的後繼狀態都是唯一的,則稱為DFA(確定有限自動機),如果後繼狀態可能有多個則稱為NFA(不確定有限狀態機)。由於DFA的狀態轉移路徑是唯一的,所以作為狀態查詢圖時,無論成功或者失敗只需要運行一次,但NFA就可能需要運行多次。

正則表達式是可以轉換為NFA形式的,或許你已經在一些可視化正則表達式的網站上[https://regexper.com ]見過類似的形式。下圖比較清晰地展示了從正則表達式到NFA狀態圖的轉換規則(Regular expressions——>NFA):

如果一個DFA和一個NFA能夠識別的字元集是一致的,則稱它們為等價的,對於任意NFA,一定存在一個DFA與其等價,由NFA構建DFA的過程被稱為DFA的確定化,也就是NFA——>DFA的過程。這個過程是圍繞ε -closure狀態集合的概念展開的,大致的過程就是從起點開始,每次將當前狀態和通過若幹次ε轉換(它是一個特殊的狀態轉移函數,表示轉換後的狀態還是當前狀態)作為一個新的ε -closure狀態集合 ,使用矩陣記錄每個ε -closure集合轉換前後的集合,最後對整個狀態轉移矩陣進行標記重命名,就可以得到一個DFA,事實上轉化後的DFA中的每一個狀態,就是NFA中的一個ε -closure集合,你可以將它理解成一個通過分組來簡化表達方式的過程,相關的過程可以參考下麵這個文章西北農林科技大學編譯原理課程PPT【詞法分析】,裡面圖比較多,能夠輔助理解,本文不再贅述。

三. 手動實現分詞器

至此1-4課就結束了,估計看視頻課程的人也是一臉懵逼,因為課程並沒有講解如何利用DFA得到最終期望的形式——Token元組,那麼最後我們就自己手動來實現一下。

3.1 基本定義

假設我們需要對下麵這段代碼進行分詞解析:

let snippet = `
var b3 = 2;
a = 1 + ( b3 + 4);
return a;
`;

那麼先來進行一些基本類型集合定義:

//解析結束標記
const EOF = undefined;

//Token Type 可識別的Token類型,
const TT = {
    num: 'num',
    id: 'id',
    keywords: 'keywords', //var | return 
    lparen: 'lparen',// (
    rparen: 'rparen',// )
    semicolon: 'semicolon', //;
    whitespace: 'whitespace', // \n | \t | \s  (空格,製表符,換行符) 
    plus: 'plus', // +
    assign: 'assign',// =
}

// 狀態集類型,除開始和結束外,其他可以與Token支持的類型相對應,每次分詞從start狀態開始,接收一個字元後改變狀態,直到在done狀態結束時,可以得到一個token
const S = {
    start: 'start',
    done: 'done',
    ...TT
}

進行工具函數定義:

//判斷是否為關鍵詞(為簡化流程,僅檢測上面示例中包含的關鍵詞)
const isKeywords = (token) => ['function', 'return', 'if', 'var'].includes(token);

//判斷是否為數字
const isDigit = c => /\d/.test(c);

//判斷是否為合法的標識符字元
const isValidId = c => /[A-Za-z0-9]/.test(c);

//判斷是否為空格
const isBlank = c => /(\s|\t|\n)/.test(c);

3.2 構建DFA

以上面定義的狀態集合和token類別為依據構建DFA:

3.3 開始分詞

分詞的邏輯實際上就是,每次先將狀態置為start,然後讀入一個字元,根據該字元判斷下一個狀態,只要沒有到達完成狀態done就繼續讀入字元,每次到達done狀態時,就可以得到一個token,將其記錄下來,然後重新將狀態置為start,開始尋找下一個token直到分析完整個代碼段。也就是說DFA狀態機每運行一輪,就得到一個token。參考代碼如下:

/**
 * 詞法分析
 */
function tokenize(code) {
    let state = S.start;
    let currentToken;//標記當前尋找到的token
    let index = 0;//起始指針,每次分析指向start狀態
    let lookup = 0;//前探指針,每次分析最終指向done狀態,start->done之間的字元即為token

    while (code[lookup] !== EOF) { //如果還有字元

        while (state !== S.done) { //開始拆分token

            //獲取下一個字元
            let c = code[lookup++];
            //根據當前狀態和下一個字元判斷DFA如何跳轉
            switch (state) {
                case S.start: //開始為空集,實現DFA中各個狀態轉移分支
                    if (isDigit(c)) {
                        state = S.num;
                    } else if (isValidId(c)) {
                        state = S.id;
                    } else if (isBlank(c)) {
                        state = S.done;
                    } else if (c === '=') {
                        currentToken = [TT.assign, '=']
                        state = S.done;
                    } else if (c === '+') {
                        currentToken = [TT.plus, '+']
                        state = S.done;
                    } else if (c === ';') {
                        currentToken = [TT.semicolon, ';']
                        state = S.done;
                    };
                break;
                case S.num: //如果是整數
                    if (isDigit(c)) {
                        state = S.num;
                    } else {
                        currentToken = [TT.num, code.slice(index,lookup - 1)];
                        lookup -= 1; //從數字狀態跳出後,最後一位需要參與下一輪分詞,故回退一位
                        state = S.done;
                    }
                break;
                case S.id: //如果是標識符狀態
                    if (isValidId(c)) {
                        state = S.id;
                    } else {
                        let tempToken = code.slice(index,lookup - 1);
                        lookup -= 1; //從標識符狀態跳出後,最後一位需要參與下一輪分詞,故回退一位
                        if (isKeywords(tempToken)) {
                            currentToken = [TT.keywords, tempToken];
                        }else{
                            currentToken = [TT.id, tempToken];
                        }
                        state = S.done;
                    }
                break;                 
            }
        }
        //state = S.done時跳出
        currentToken && console.log(currentToken);
        currentToken = undefined;

        //起指針跟上末指針
        index = lookup;

        //開始下一輪分詞
        state = S.start;
    }
}

3.4 查看分詞結果

運行上述代碼即可看到目標程式片段的分詞結果:

四. 小結

至此,我們就得到了元組形式的分詞結果,完成了編譯中第一步lexical analysis的部分,筆者同時提供了一份包含token所在行列信息的版本,你可以從附件或【我的github倉庫】中拿到示例代碼,如果覺得對你有幫助,可以在github上為我加個星星哦~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Linux下如何設置每天自動備份資料庫 本文以Centos7.6系統與Oracle11g為例: 一.先找到資料庫的環境變數 如果是在root賬戶下,須先登錄到資料庫所在賬戶 export PATHexport ORACLE_BASE=/home/nnc_db/appexport ORACLE_HOM ...
  • 首先在命令提示符下進入mysqldump.exe所在目錄(如果mysqldump.exe所在目錄已添加到系統path環境變數,可以省略此步驟) 備份mysqldump.exe --opt --add-drop-database --add-drop-table -hlocalhost -uroot ...
  • SELECT INTO 語句可用於創建表的備份復件。 SELECT INTO 語句 SELECT INTO 語句從一個表中選取數據,然後把數據插入另一個表中。 SELECT INTO 語句常用於創建表的備份復件或者用於對記錄進行存檔。 SQL SELECT INTO 語法 您可以把所有的列插入新表: ...
  • 本文鏈接: "Android mmap 文件映射到記憶體介紹" Android開發中,我們可能需要記錄一些文件。例如記錄log文件。如果使用流來寫文件,頻繁操作文件io可能會引起性能問題。 為了降低寫文件的頻率,我們可能會採用緩存一定數量的log,再一次性把它們寫到文件中。如果app異常退出,我們有可 ...
  • 關於小程式的載入快慢這可是一大學問,自古以來性能都是重點,所以下麵我淺談一下自己遇到的問題和解決方法吧 首先,先從網路請求network說起: 這裡基本不關前端的事情,但是這也是優化小程式的一大重點,後端響應我們請求數據的速度影響了整個頁面的速度,所以,把它拿到第一位 請求超過300ms就已經算是慢 ...
  • 最近項目要求,ui有很多有關於陰影的設計要求,網上找了些實現方式,但都不是很理想。現在閑下來了,就尋思著自己寫個陰影佈局耍耍,以備後用。先說道說道我找到的幾種陰影實現方式: 系統陰影 Andorid 系統自api 21之後就多了一個熟悉 android:elevation ,這是android最新引 ...
  • 原文作者: "Roman Elizarov" 原文地址: "Null is your friend, not a mistake" 譯者:秉心說 "Kotlin Island from Wikimedia by Pavlikhin, CC BY SA 4.0" 我使用 Java 語言編程已經很久很久 ...
  • jQuery 效果方法 下表列出了用於創建動畫效果的所有jQuery方法。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...