本章節主要講了 Linux 系統下的關於文件I/O操作的幾個函數:open、read、write、lseek、close 的使用和需要註意的一些細節。接著,又介紹了多進程見如何共用文件。下麵開始知識點梳理。 文件描述符 對於內核來說,所有打開的文件,都是通過文件描述符來引用。當打開或創建一個新的文件 ...
本章節主要講了 Linux 系統下的關於文件I/O操作的幾個函數:open、read、write、lseek、close 的使用和需要註意的一些細節。接著,又介紹了多進程見如何共用文件。下麵開始知識點梳理。
文件描述符
對於內核來說,所有打開的文件,都是通過文件描述符來引用。當打開或創建一個新的文件的時候,內核都會向進程返回該文件的文件描述符。文件描述符是什麼,可以參考維基百科——文件描述符。UNIX 系統按慣例,會將0與進程的標準輸入關聯,將1與進程的標準輸出關聯,將2與進程的標準錯誤關聯。
open 與 openat 函數的使用
oflag
參數:
是通過在頭文件 <fcntl.h> 中定義的常量中的一個或多個進行 “或”運算構成的。這裡不再一一詳述每個常量及其含義,感興趣的小伙伴可以自行去查閱。path
參數:
是要打開和創建文件的名字。fd
參數:
fd 把open 和 openat 函數區分開來,具體有三種可能:- 當path是絕對路徑時, openat 就相當於是 open;
- path制定的是相對路徑名稱時,fd指出了相對路徑名稱的在文件系統中的開始位置;
- path是相對路徑,fd參數具有特殊值 AT_FDCWD。此時,路徑名在當前工作目錄中獲取,openat 函數在操作上與 open 函數類似;
本節還講到了 TOCTTOU 思想以及文件名與路徑名被截斷的問題。
creat 函數
creat函數是以只寫的形式來打開一個新的文件的。
close 函數
關閉一個文件,會關閉該進程在當前文件上加的所有記錄鎖。一個進程結束之後,內核會自動關閉其打開的所有文件。
lseek 函數
lseek 函數僅會將當前的文件偏移量記錄到內核中,其不會引起任何 I/O 操作。該偏移量是用來進行下一次讀或者寫的游標。偏移量的大小可以與文件實際大小不對應。當大於文件當前的實際長度的時候,對該文件的下一次寫將加長該文件,且會形成一個空洞。位於文件中但是沒有寫過的位元組都讀為0。具體什麼是空洞,可以看下百科——文件空洞。
read 函數
如果 read 成功,則會返回讀到的位元組數。如果已經讀到了文件的末尾,會返回0。
write 函數
對於普通文件,通常從當前的偏移量開始;如果在打開文件的時候,指定了 O_APPEND操作,則在每次寫操作之前,將文件的偏移量設置在文件的末尾。每次寫成功,文件的偏移量都會變化。
I/O 效率
大多數文件系統為改善性能,都會增加“預讀”技術。當檢測到正在進行順序讀取時,系統就試圖讀入比實際鎖要求更多的數據。
文件共用
UNIX 系統支持不同進程之間共用打開文件。內核使用三種數據結構用來表示打開文件:
(1)每個進程在進程記錄表中都會有一個記錄項,記錄項中包含一張打開文件描述符表。有每個文件描述符相關聯的是:
A)文件描述符標誌;
B)指向一個文件表項的指針;
(2)內核為所有打開文件維持一張文件表,每個文件表項包含:
A)文件狀態標誌;
B)當前文件的偏移量;
C)指向該文件v節點表項的指針;
(3)每個打開文件(或設備)都有一個v節點結構。
該圖顯示了一個進程打開多個文件的場景。打開文件描述符表可以存放在用戶空間,而非進程表中。
該圖展示了多個獨立的進程打開同一個文件的場景。此場景在讀的時候,可以正確的讀。但是當涉及到寫文件,就會存在了一些不可預料的結果。
dup 與 dup2 函數
兩個函數都是用來複制一個現有的文件描述符的。有 dup 返回的新文件描述符一定是當前可用文件描述符中的最小值,對於 dup2,可以用fd2參數指定新描述符的值。如果fd2已經打開,則將其關閉先。若fd=fd2,則dup2返回fd2,而不關閉它。
![dup(1) 後的內核數據結構說明
sync、fsync、fdatasync 函數
傳統的UNIX系統都會在內核中設有緩衝區告訴緩存或頁高速緩存,大多數磁碟IO都是通過緩衝區進行。當向文件寫數據時,內核通常會先將數據copy到緩衝區中,然後排入隊列,晚些時候會寫入到磁碟中,這被稱為延遲寫
。當內核需要重用緩衝區來存放其他睡的時候,會將所有數據寫入到磁碟中。為了保證磁碟上實際文件系統與緩衝區中內容的一致性,UNIX系統提供了三種函數,如上。它們有什麼區別呢?
fcntl 函數
fcntl 函數可以改變已經打開的文件的屬性。
fcntl 的返回值與命令有關。如果出錯,所有命令都返回-1;成功會返回其他值。
在修改文件描述符標誌或文件狀態標誌的時候必須謹慎,先要獲取現在的標誌值,然後再按照期望修改它,最後設置新的標誌值。本小節還講到了調用write時設置同步機制後,對系統性能帶來的影響。