Lexer的設計--下(5)

来源:http://www.cnblogs.com/nzhl/archive/2016/08/21/5793954.html
-Advertisement-
Play Games

一個禮拜之後我終於從成都回來了, 從今天開始更新會恢復... 一點小的改進 寫 的時候距離我上一次寫已經一個禮拜了, 所以我回顧了一下之前的代碼, 發現還是有瑕疵. 比如考慮到一個較短的程式, 短到小於BUFFERSIZE(256), 這時其實我的程式是有錯的, 因為此時 中的內容有一部分是未定義的 ...


一個禮拜之後我終於從成都回來了, 從今天開始更新會恢復...

一點小的改進

lex()的時候距離我上一次寫已經一個禮拜了, 所以我回顧了一下之前的代碼, 發現還是有瑕疵. 比如考慮到一個較短的程式, 短到小於BUFFERSIZE(256), 這時其實我的程式是有錯的, 因為此時buffer中的內容有一部分是未定義的... 所以為了防止這種情況我又添加了一個變數, 叫做num, 它代表的是目前buffer中實際有效的字元數.

只有幾個地方進行了修改, 很簡單 :

Lexer(std::ifstream& ifs):ifs(ifs), EndOfFile(false), idx(0), row(1), column(0){
    updateBuffer();
    lex();
}
    void updateBuffer(){

        // first read...
        if(num == 0 && !EndOfFile){
            ifs.read(buffer, BUFFERSIZE);
            num = ifs.gcount();
            if(ifs.eof()){
                EndOfFile = true;
            }
            return;
        }
        if(idx <= LIMITSIZE || EndOfFile){
            return;
        }

        idx -= LIMITSIZE;
        strncpy(buffer, buffer + LIMITSIZE, COPYLENGTH);
        ifs.read(buffer + COPYLENGTH, LIMITSIZE);
        num = COPYLENGTH + ifs.gcount();
        if(ifs.eof()){
            EndOfFile = true;
        }
    }
void Lexer::eatSpace(){
    char ch = 0;
   //change here!!! 
    while(idx != num && (ch = buffer[idx++])){
        updateBuffer();
        switch (ch){
            case '\n':{
                ++row;
                column = 0;
                break;
            }
            case ' ':{

            }
            case '\t':{
                ++column;
                break;
            }
            default:{
                --idx;
                return;
            }
        }
    }
}
char getNextChar(){
    updateBuffer();
    ++column;
  //change here!!! 
    if(idx == num){
        // error.
    }
    return buffer[idx++];
}

所以改動的地方都已經使用備註標出, 主要思路在於 :

  1. 增加了updateBuffer初始化buffer功能, 所以關於緩衝中有效字元數量(num), 是否達到文件末尾(EndOfFile)等變數的設置都會在這個函數, 也只會這個函數中進行.
  2. 源代碼的結束只出現在eatSpace()中和每一次迴圈的開頭, 所以在getNextChar()中出現只有一種情況, 就是源代碼有錯.

lex()的設計

最後的任務就是設計這個關鍵的函數lex(), 我個人想到的最清晰易懂的方式就是通過預讀然後調用相應的識別函數的方式來進行詞法解析.

我們從簡單的幾個入手 :

void Lexer::lex() {
    eatSpace();
    char ch;
    while(idx != num) {
        ch = getNextChar();
        switch (ch) {
            case '+':
            case '-':
            case '*':
            case '/': {
                if (getNextChar() == '=') {
                    list.pushBack(Token(Token::OPERATOR, ch + "=", row, column));
                } else {
                    backtrace();
                    list.pushBack(Token(Token::OPERATOR, ch + "", row, column));
                }
                break;
            }

            case '=':{
                if(getNextChar() == ch){
                    list.pushBack(Token(Token::OPERATOR, ch + ch + "", row, column));
                }else{
                    backtrace();
                    list.pushBack(Token(Token::OPERATOR, ch + "", row, column));
                }
                break;
            }

            case '&':
            case '|':
            case '!':
                list.pushBack(Token(Token::OPERATOR, ch + "", row, column));
                break;

            case ';':
                list.pushBack(Token(Token::SEMI, ch + "", row, column));
                break;

            case '(':
            case ')':
            case '{':
            case '}':
            case '[':
            case ']':
                list.pushBack(Token(Token::BRACKET, ch + "", row, column));
                break;

        }
        eatSpace();
    }
}

然後是字元串解析函數 :

std::string Lexer::stringParse() {
    char ch;
    std::string temp;
    bool escape = false;
    while(escape || (ch = getNextChar()) != '"'){
        if(escape){
            switch (ch){
                case 'n':
                    temp += '\n';
                    break;
                case 't':
                    temp += '\t';
                    break;
                case '"':
                    temp += '\"';
                    break;
                case '\\':
                    temp += '\\';
                    break;
                default:
                    //error
                    ;
            }
            escape = false;
            continue;
        }

        switch (ch){
            case '\\':
                escape = true;
                continue;
            default:
                temp += ch;
        }
    }
    return temp;
}

此時的lexer() ...

void Lexer::lex() {
    eatSpace();
    char ch;
    while(idx != num) {
        ch = getNextChar();
        switch (ch) {
            case '+':
            case '-':
            case '*':
            case '/': {
                if (getNextChar() == '=') {
                    list.pushBack(Token(Token::OPERATOR, ch + "=", row, column));
                } else {
                    backtrace();
                    list.pushBack(Token(Token::OPERATOR, ch + "", row, column));
                }
                break;
            }

            case '=':{
                if(getNextChar() == ch){
                    list.pushBack(Token(Token::OPERATOR, ch + ch + "", row, column));
                }else{
                    backtrace();
                    list.pushBack(Token(Token::OPERATOR, ch + "", row, column));
                }
                break;
            }

            case '&':
            case '|':
            case '!':
                list.pushBack(Token(Token::OPERATOR, ch + "", row, column));
                break;

            case ';':
                list.pushBack(Token(Token::SEMI, ch + "", row, column));
                break;

            case '(':
            case ')':
            case '{':
            case '}':
            case '[':
            case ']':
                list.pushBack(Token(Token::BRACKET, ch + "", row, column));
                break;

            case '0': {
                // int or float
                std::string temp("0");
                if (getNextChar() == '.') {
                    temp += '.';
                    while (isDigit(ch = getNextChar())) {
                        temp += ch;
                    }
                }
                backtrace();
                list.pushBack(Token(Token::INT, temp, row, column));
                break;
            }

            case '"':
                list.pushBack(Token(Token::STRING, stringParse(), row, column));

        }
        eatSpace();
    }
}

由於intfloat有兩種情況, 所以這裡分開設計, 先討論了比較簡單的0開頭的情況.

然後把剩下的一些在switch的default中補齊.

void Lexer::lex() {
    eatSpace();
    char ch;
    while(idx != num) {
        ch = getNextChar();
        switch (ch) {
            case '+':
            case '-':
            case '*':
            case '/': {
                if (getNextChar() == '=') {
                    list.pushBack(Token(Token::OPERATOR, ch + std::string("="), row, column));
                } else {
                    backtrace();
                    list.pushBack(Token(Token::OPERATOR, ch + std::string(""), row, column));
                }
                break;
            }

            case '=':{
                if(getNextChar() == ch){
                    list.pushBack(Token(Token::OPERATOR, std::string("") + ch + ch , row, column));
                }else{
                    backtrace();
                    list.pushBack(Token(Token::OPERATOR, ch + std::string(""), row, column));
                }
                break;
            }

            case '&':
            case '|':
            case '!':
                list.pushBack(Token(Token::OPERATOR, ch + std::string(""), row, column));
                break;

            case ';':
                list.pushBack(Token(Token::SEMI, ch + std::string(""), row, column));
                break;

            case '(':
            case ')':
            case '{':
            case '}':
            case '[':
            case ']':
                list.pushBack(Token(Token::BRACKET, ch + std::string(""), row, column));
                break;

            case '0': {
                // int or float
                bool isFloat = false;
                std::string temp("0");
                if (getNextChar() == '.') {
                    isFloat = true;
                    temp += '.';
                    while (isDigit(ch = getNextChar())) {
                        temp += ch;
                    }
                }
                backtrace();
                isFloat ? list.pushBack(Token(Token::FLOAT, temp, row, column))
                        : list.pushBack(Token(Token::INT, temp, row, column));
                break;
            }

            case '"':
                list.pushBack(Token(Token::STRING, stringParse(), row, column));

            default:{
                if(isDigit(ch) && ch != 0){
                    bool isFloat = false;
                    std::string temp;
                    temp += ch;
                    while (isDigit(ch = getNextChar())) {
                        temp += ch;
                    }
                    if (getNextChar() == '.') {
                        isFloat = true;
                        temp += '.';
                        while (isDigit(ch = getNextChar())) {
                            temp += ch;
                        }
                    }
                    backtrace();
                    isFloat ? list.pushBack(Token(Token::FLOAT, temp, row, column))
                            : list.pushBack(Token(Token::INT, temp, row, column));
                }

                else if(isID(ch) && !isDigit(ch)){
                    std::string temp;
                    temp += ch;
                    while (isID(ch = getNextChar())) {
                        temp += ch;
                    }
                    backtrace();
                    list.pushBack(Token(Token::IDENTIFIER, temp, row, column));
                }

                else{
                    //error
                }
            }

        }
        eatSpace();
    }
}

然後在進行了簡單的測試 :

main.cpp :

#include <iostream>
#include <fstream>
#include "Font/Lexer/Lexer.h"



int main() {
    std::ifstream ifstream("/Users/zhangzhimin/x.txt");
    Lexer lexer(ifstream);
    lexer.print();
    return 0;
}

x.txt

int main(){
    int x = 3;
    x += 3.5;
    a123b = 4.3333;
    "\n1\t2\\\"";
    > *= +++ < 
    return 0;
}

結果如下

int
main
(
)
{
int
x
=
3
x
+=
3
5
a123b
=
4
3333

1   2\"
;
*=
+
+
+
return
0
;
}

除了沒有加入報錯, 其他的都ok了, 我目前還不太瞭解C++中的異常機制, 畢竟才學了不到一個月, 其他的以後再說吧, 反正詞法分析就告一段落了...


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • kali的openvas安裝 留下筆記,以便下次再查開始在kali找openvas,竟然kali不自帶,害的要下載。 apt-get updateapt-get dist-upgradeapt-get install openvas (我記得大約要下600M左右)安裝完後openvas-setupo ...
  • 背水一戰 Windows 10 之 控制項(文本類): RichTextBlock, RichTextBlockOverflow, RichEditBox ...
  • 本篇文章版權歸博客園和作者吳雙本人共同所有,轉載和爬蟲請註明原文系列地址http://www.cnblogs.com/tdws/tag/NoSql/ 本人之前有篇文章,講到了redis主從複製,讀寫分離。然而留下的問題是當主伺服器掛了,我們就無法向客戶端提供任何服務了呀,這樣的方案,就不能稱之為高可 ...
  • 原文網址: http://www.cnblogs.com/csdev Networkcomms 是一款C# 語言編寫的TCP/UDP通信框架 作者是英國人 以前是收費的 目前作者已經開源 開源地址是:https://github.com/MarcFletcher/NetworkComms.Net 這 ...
  • 在C#4.0中,最核心的特性莫過於動態類型的引入。 1、動態類型簡介 一直在強調C#是一門靜態類型的語言,因為它在定義變數時要明確給出變數的類型。例如在int i=5;這樣的代碼中,int就是變數i的類型,如果定義變數時沒有明確指定變數的類型,則這樣的代碼是通過不了編譯的。 在C#4.0中,微軟引入 ...
  • 本文主要介紹cyq.data orm 框架中的log和syslogs兩個類的用法,詳情如下...... ...
  • 斷斷續續地學習了php有一段時間了,總是不能很好地理解,如今把數組和遍曆數組整理出來。 從基礎開始說起: php數組分為索引數組,和關係型數組, 索引數組就是下標從0,1,2,3,4...開始,而關係型數組則非,理解為帶key的(key為鍵) 開始寫一個數組: 當然也可以這樣寫: 現在來遍歷這個數組 ...
  • 異常處理 AttributeError 試圖訪問一個對象沒有的樹形,比如foo.x,但是foo沒有屬性xIOError 輸入/輸出異常;基本上是無法打開文件ImportError 無法引入模塊或包;基本上是路徑問題或名稱錯誤IndentationError 語法錯誤(的子類) ;代碼沒有正確對齊In ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...