字元串或串(String)是由數字、字母、下劃線組成的一串字元。一般記為 s=“a1a2···an”(n>=0)。它是編程語言中表示文本的數據類型。在程式設計中,字元串(string)為符號或數值的一個連續序列,如符號串(一串字元)或二進位數字串(一串二進位數字)。 String類型你一定不陌生,畢 ...
字元串或串(String)是由數字、字母、下劃線組成的一串字元。一般記為 s=“a1a2···an”(n>=0)。它是編程語言中表示文本的數據類型。在程式設計中,字元串(string)為符號或數值的一個連續序列,如符號串(一串字元)或二進位數字串(一串二進位數字)。
String類型你一定不陌生,畢竟每一位coder都是從var str1 = “Hello World”過來的。
但它真的就只是如此嗎?聽我娓娓道來。
一、思考
在 Swift 開發使用字元串的過程中,你是否有思考過以下問題?
- 1 個字元串變數占用多少記憶體?
- 字元串 str1、str2 的底層存儲有什麼不同?
- 如果對 str1、str2 進行拼接操作,str1、str2 的底層存儲又會發生什麼變化?
如果你能準確地回答以上問題,那說明對 Swift 字元串的底層存儲機制還是比較瞭解的。
二、1 個字元串變數占用多少記憶體?
方法 1:MemoryLayout
首先,可以藉助 Swift 自帶的 MemoryLayout 來測試一下
方法 2:彙編
另外,我們也可以藉助一個強有力的底層分析助手—彙編語言,來窺探一下 String 的底層存儲
- 實際上分析其他語法、系統庫的底層,都可以藉助彙編語言
- 比如多態的原理、泛型的原理、Array 的底層、枚舉的底層等等
另外,不僅僅是 Swift,C、C++、OC 的底層分析,依然可以藉助彙編語言
- 畢竟你寫的每一行有效代碼,最終都是要轉成機器指令(0 和 1)
- 而機器指令是跟彙編指令一一對應的,每一條機器指令都能翻譯成與之對應的彙編指令
- 能讀懂彙編指令,就相當於能讀懂機器指令,知道 CPU 具體在幹嘛(操作了什麼寄存器,操作了哪塊記憶體)
- 本教程的代碼是直接跑在 Mac 的命令行(CommandLineTools)項目上
- 因此展示的彙編代碼是基於 X64 的 AT&T 格式彙編,並非 iOS 真機設備的 ARM 彙編
- 其實不同種類的彙編之間有極大的相似性,只是有些指令的叫法不一樣
跟微軟的 Visual Studio 一樣,Xcode 也內置了非常方便的反彙編功能,可以輕鬆查看每一句代碼對應的彙編指令,打開反彙編界面的步驟如下
- 在某一行需要調試的代碼打上斷點(反彙編界面會在斷點調試狀態下顯示出來)
- 菜單:`Debug` > `Debug Workflow` > `Always Show Disassembly`
- `Assembly` 譯為彙編, `Disassembly` 譯為反彙編
- 運行程式,看到反彙編界面
如果你的反彙編經驗十足,根據第 16、17 行的彙編就可以推敲出來,String 是占用 16 個位元組
- 因為它用了 rax、rdx 寄存器存放字元串 str 的內容,而 rax、rdx 都是 8 位元組的
彙編的內容太多了,因為時間和篇幅關係,文章里並不會對每一句彙編指令進行詳細地講解,更多的是想說明彙編的重要性。
三、字元串的底層存儲
窺探記憶體
此前我寫了個可以窺探 Swift 變數記憶體的小工具:https://github.com/CoderMJLee/Mems
- 現在用它來窺探下字元串的 16 位元組裡面,究竟存儲著什麼數據
- `Mems.memStr(ofVal:)` 預設情況下按照 8 個位元組一組來顯示記憶體數據
- 傳遞參數 `alignment: .one` 是按照 1 個位元組一組來顯示記憶體數據
字元 '0'~'9' 的 ASCII 值是 0x30~0x39,認真觀察最初 str1 的 16 個位元組數據,你發現了什麼?
- 它直接將所有字元的 ASCII 值存儲在 str1 的 16 位元組中
- 最後 1 個位元組 0xea 中的 0xa 就是字元的數量,也是共 10 個字元
拼接
可以發現,當對 str1 進行拼接 "ABCDE" 的時候
- 它最終是將 "0123456789ABCDE"十五個字元的 ASCII 值都存儲在了 str1 的 16 位元組中
- 最後 1 個位元組 0xef 中的 0xf 就是字元的數量,也是共 15 個字元
- 可以看得出來,目前 16 個位元組已經存滿了,那如果再拼接 1 個字元呢?
可以看到,str1 裡面存儲的數據發生了非常大的變化,每一個字元的 ASCII 值不見了,
- 那裡面的 16 位元組具體是什麼含義呢?
- 所有字元('0'~'9'、'A' 到 'F')的 ASCII 值又存到哪去了呢?
其他情況
如果一開始初始化的時候(未拼接之前),字元串的內容就是超過 15 個字元呢?
相信你能猜到是這個結果
- 這 16 個位元組裡面並沒有出現任何一個字元的 ASCII 值
- 而且這 16 個位元組跟 `第27行的str1` 還是有所區別
- 雖然它們的字元串內容都是"0123456789ABCDEF"
如果對 str2 進行拼接操作
不難發現:這時 str2 的 16 位元組又發生了變化,跟 `第27行的str1` 是有點相似的
如何解決上述疑問?
上述的種種疑問,光看列印出來的記憶體數據是無法解決的,但是都可以利用【!!!彙編!!!】來解決,分析彙編指令,立馬就得出結論,因為文章的篇幅有限,平時工作也比較忙,我把上述問題的詳細剖析過程錄製成了長達 2 個多小時的視頻,有興趣的朋友可以用 1.5~2 倍速度觀看
- 鏈接:https://pan.baidu.com/s/1AkS3K1ZKP8zyxhlhLRaBkA
- 提取碼:kzrk
- 視頻對於沒有彙編基礎的朋友來說,可能會有點難度,最好挑一個頭腦清醒的時間去觀看
- 看完視頻後,希望大家能夠確切地感受到彙編語言的重要性,不要永遠只停留在編寫高級語言代碼、沉迷於語法糖的層面。
四、最後
最後想多說一句:彙編能給你帶來的價值遠遠不止這篇文章所說的窺探字元串的底層,對你的程式生涯影響絕對是終生受益的(數據結構與演算法功底也是如此),比如你還能玩轉軟體破解、游戲外掛等,這是我此前用【彙編\C++】編寫的一個游戲外掛:https://github.com/CoderMJLee/SeemygoPVZCheater
彙編語言是最接近於機器語言的編程語言。如果說機器語言是電腦操作的本質,那麼彙編語言就是最最接近本質的語言。彙編語言能夠讓你更好的理解高級語言,學會彙編後,你可以通過修改高級語言的代碼來提高演算法所不能提高的效率。
在編程領域,字元串雖然是所有編程語言中最重要的部分之一,但它也僅僅是這片領域的一隅。對程式員而言,唯有不斷的探索學習更多技術,才能在這片領域中縱橫遨游。
以上就是我的技術分享,感覺意猶未盡還想學的朋友,送福利了!!想獲取更多技術提升秘籍,歡迎加微信:19950277730,我在這裡為你隨時解答。這裡有很多如 iOS、數據結構與演算法等編程技巧的免費視頻和學習資料。