(再聲明一下,為了簡單暴力的講解AST的轉換過程,這裡的編譯內容以"'Hello' + ' World'"作為案例) 上一篇基本上花了一整篇講完了scanner的Init方法,接下來就是Scan了,Init的方法基本上都是在Stream類下操作,但是本節回到了scanner層級。 雖然這裡只有簡簡單 ...
(再聲明一下,為了簡單暴力的講解AST的轉換過程,這裡的編譯內容以"'Hello' + ' World'"作為案例)
上一篇基本上花了一整篇講完了scanner的Init方法,接下來就是Scan了,Init的方法基本上都是在Stream類下操作,但是本節回到了scanner層級。
/** * Scan * 僅僅只涉及next_指針 */ void Scanner::Scan() { Scan(next_); } void Scanner::Scan(TokenDesc* next_desc) { next_desc->token = ScanSingleToken(); /** * 設置當前詞法的結束位置 */ next_desc->location.end_pos = source_pos(); }
雖然這裡只有簡簡單單的兩步(砍掉了所有的CHECK和DEBUG內容),但這個ScanSingleToken已經夠講了。從字面意思理解,就是對單個詞法的解析,源碼如下。
/** * 這個ScanSingleToken方法可TM太長了 */ V8_INLINE Token::Value Scanner::ScanSingleToken() { Token::Value token; do { /** * 設置當前詞法的起始位置 */ next().location.beg_pos = source_pos(); /** * Ascii碼是從0 ~ 127 * 簡單的判斷一下合法性 */ if (V8_LIKELY(static_cast<unsigned>(c0_) <= kMaxAscii)) { /** * 這是一個mapping數組 * 對所有的Unicode => Ascii做了映射 */ token = one_char_tokens[c0_]; /** * 包含非常多的case...先不展開了 * 根據Token類型進行不同的處理 */ switch (token) { case Token::LPAREN: case Token::RPAREN: // 其他單符號... // One character tokens. return Select(token); case Token::STRING: return ScanString(); // 更多... default: UNREACHABLE(); } } /** * 處理結束符、空格、異常符號等特殊情況 */ // ... } while (token == Token::WHITESPACE); return token; }
作為一個詞法解析方法,長度其實還是可以接受的,已經刪掉了大部分的case判斷,由於本系列專註於"'Hello' + ' World'"的編譯,所以留下了STRING類型。
講兩個點,第一個是那個source_pos,位置的屬性和方法是真的多,比較簡單,看看就行了。
/** * 上一篇解析了第一個字元 所以pos移動到了1 * 然而記錄location需要從頭開始 所以這裡做了一個偏移 */ static const int kCharacterLookaheadBufferSize = 1; int source_pos() { return static_cast<int>(source_->pos()) - kCharacterLookaheadBufferSize; }
然後那個mapping數組可以稍微給一下出處,源碼如下。
/** * 總結起來就是GetOneCharToken(0),GetOneCharToken(1),...,GetOneCharToken(127)全部調用一遍 * 其中IsDecimalDigit負責判斷是否是數字 * 而IsAsciiIdentifier負責判斷是否是標識符,例如$、_、a-z等等 * 最後生成的one_char_tokens數組下標代表Unicode編碼 值代表對應的Token類型 */ #define INT_0_TO_127_LIST(V) \ V(0) V(1) V(2) V(3) V(4) V(5) V(6) V(7) V(8) V(9) \ // ... V(120) V(121) V(122) V(123) V(124) V(125) V(126) V(127) static const constexpr Token::Value one_char_tokens[128] = { #define CALL_GET_SCAN_FLAGS(N) GetOneCharToken(N), INT_0_TO_127_LIST(CALL_GET_SCAN_FLAGS) #undef CALL_GET_SCAN_FLAGS }; constexpr Token::Value GetOneCharToken(char c) { // clang-format off return c == '(' ? Token::LPAREN : c == ')' ? Token::RPAREN : // 其餘字元... IsDecimalDigit(c) ? Token::NUMBER : IsAsciiIdentifier(c) ? Token::IDENTIFIER : Token::ILLEGAL; }
之前說過,c0_代表的是當前解析字元的Unicode編碼,於是這裡直接通過數組索引查找其對應的類型,按照例子中,我們的字元是一個單引號,而單引號的類型如下。
/** * 單雙引號均會被識別為字元串標記 * 而es6的模板字元串比較特殊 暫時不搞他 */ c == '"' ? Token::STRING : c == '\'' ? Token::STRING : c == '`' ? Token::TEMPLATE_SPAN :
所以,當前token被賦值為Token::STRING,因此,case分支進入ScanString的方法。這個方法內容比較多,下一篇講吧,午休時間。