Rust的智能指針有哪些?大多數人都能馬上答出Box<T>、Rc<T>和Arc<T>、Ref<T>和在非同步編程中很常見的Pin<P>等等。不過,有一個可能經常被大多數人遺忘的類型,它功能強大,利用好了可以節省很多複製開銷;它就是這篇文章的主角:Cow<B>。 什麼是COW(Copy-On-Write ...
Rust的智能指針有哪些?大多數人都能馬上答出Box<T>
、Rc<T>
和Arc<T>
、Ref<T>
和在非同步編程中很常見的Pin<P>
等等。不過,有一個可能經常被大多數人遺忘的類型,它功能強大,利用好了可以節省很多複製開銷;它就是這篇文章的主角:Cow<B>
。
什麼是COW(Copy-On-Write)?
在開始之前,有必要先介紹一下COW(Copy-On-Write,寫時複製)的概念。COW是一種用於資源管理的優化策略,在操作系統中應用非常廣泛。COW的核心思想是當多個任務需要讀取同一個資源(比如記憶體中的數據、文件)的時候,它們會共用同一份資源副本,而不是為每個任務複製一份資源副本。只有當某個任務需要修改這個資源時,才會為這個任務創建一份資源副本。
需要註意的是,上述的整個過程對任務(也就是程式員編寫的用戶程式)來說都是不可見的;對程式員來說,他並不知道他所使用的資源在發生寫操作時才被真正地複製了一份,自始至終他仿佛就像在獨占整份資源一樣。
COW在文件系統、虛擬記憶體管理中都有非常成熟的應用;在編程語言中,也被廣泛應用於優化字元串、集合的處理。
Cow:定義
Rust的Cow<B>
是一個枚舉類型,包含兩個成員:Borrowed
和Owned
。不過,我們幾乎不會直接用到它的成員,因為Cow<B>
實現了Deref
特征,這使得我們可以通過Deref轉換這一語法糖來便捷地直接使用Cow<B>
中的內容。有關Deref轉換可以閱讀我之前的文章。
pub enum Cow<'a, B>
where
B: 'a + ToOwned + ?Sized,
{
Borrowed(&'a B),
Owned(<B as ToOwned>::Owned),
}
需要註意一下Cow
的模板參數。Cow
接受一個生命周期和一個類型B
,其中類型B
需要實現ToOwned
特征;ToOwned
特征的介紹可以看之前的文章,這裡僅僅提一下所有實現了Clone
的類型都會自動實現ToOwned
自身。除此以外,成員Owned
的內容類型不是類型B
本身,而是類型B
的ToOwned
的目標類型(例如對str
來說,這個類型是String
)。
使用方法
這裡是一段Cow<B>
的簡單使用範例:
use std::borrow::Cow;
fn main() {
let foo = "Hello World";
let mut bar: Cow<str> = Cow::from(foo);
println!("{bar}"); // 這裡沒有發生複製
bar.to_mut().push_str(" Rust"); // 這裡發生了複製
println!("{bar}");
println!("{foo}"); // 原來的字元串foo仍然可用,而且沒有變化
}
Cow的構造
Cow<B>
是一個枚舉,所以首先它是可以直接從它的成員Borrowed
和Owned
來構造的:
use std::borrow::Cow;
fn main() {
let str_ = "Hello World";
let string = String::from("Hello World!");
let foo: Cow<str> = Cow::Borrowed(str_);
let bar: Cow<str> = Cow::Owned(string);
// 這裡string不再可用
// println!("{string}");
}
除此以外,標準庫中的五對實現了ToOwned
的類型(str
/String
,[T]
/Vec<T>
,CStr
/CString
,OsStr
/OsString
,Path
/PathBuf
)也可以使用From::from
來構造Cow<B>
:
use std::borrow::Cow;
fn main() {
let str_ = "Hello World";
let string = String::from("Hello World!");
let foo: Cow<str> = Cow::from(str_); // from -> Borrowed
let bar: Cow<str> = Cow::from(string); // from -> Owned
// 這裡string不再可用
// println!("{string}");
}
使用From::from
時,Rust會自動為我們匹配正確的類型(&'a str
/String
等),一般情況下推薦使用from
來構造Cow
,而不是手動指定Borrowed
/Owned
。
deref和to_mut
前面提到過,Cow<B>
實現了Deref<B>
特征,這意味著我們不需要做任何操作就可以享受Deref轉換的語法糖:
use std::borrow::Cow;
fn main() {
let str1 = "Hello World";
let cow: Cow<str> = Cow::from(str1);
let str2: &str = &cow; // 註意看,我們把&Cow<str>賦給了&str
println!("{str2}"); // Hello World
println!("{cow}"); // Hello World
println!("{str1}"); // Hello World
}
use std::borrow::Cow;
fn main() {
let str1 = "Hello World";
let cow: Cow<str> = Cow::from(str1);
cow.split(" ").for_each(|s|println!("{s}")); // 使用str的方法split也不在話下
}
不過,Cow<B>
並沒有實現DerefMut
;這意味著我們對Cow
的修改不會影響到底層的內容,相反地,當我們試圖修改Cow
時,Cow
會生成一個副本,並且修改這個擁有所有權的副本:
use std::borrow::Cow;
fn main() {
let str1 = "Hello";
let mut cow: Cow<str> = Cow::from(str1);
cow += " World";
println!("cow = {cow}"); // cow = Hello World
println!("str1 = {str1}"); // str1 = Hello
}
我們可以多加一點輸出代碼,來看看具體發生了什麼:
#![feature(cow_is_borrowed)]
use std::borrow::Cow;
fn main() {
let str1 = "Hello";
let mut cow: Cow<str> = Cow::from(str1);
println!("cow = {cow}, borrowed = {}", cow.is_borrowed()); // cow = Hello, borrowed = true
cow += " World";
println!("cow = {cow}, borrowed = {}", cow.is_borrowed()); // cow = Hello World, borrowed = false
println!("str1 = {str1}"); // str1 = Hello
}
修改了cow
變數後,它不再處於借用狀態,而是擁有了這段字元串的所有權——這也是它能夠安全地修改這段字元串的關鍵。
除了直接對Cow<str>
使用str
中實現的方法來修改字元串之外,還可以使用to_mut()
來獲取&String
來使用String
中實現的方法來修改字元串:
use std::borrow::Cow;
fn main() {
let str1 = "Hello";
let mut cow: Cow<str> = Cow::from(str1);
cow.to_mut().push_str(" World");
println!("cow = {cow}"); // cow = Hello World
println!("str1 = {str1}"); // str1 = Hello
}
再重覆一遍:使用to_mut()
修改和直接修改Cow<B>
的不同在於,to_mut()
返回的是&mut <B as ToOwned>::Owned
(例如String
),可以使用B
的Owned
類型(例如String
)中額外實現的方法(例如String::push_str
);修改Cow<B>
的時候,只能使用B
中實現的方法(例如上面的+=
,也就是str::add_assign
)。
消費Cow
在不再需要使用Cow
,或者想要完整取得Cow
中的對象的所有權的時候,我們可以使用Cow::into_owned
方法來消費掉Cow
。方法返回的是B
的Owned
類型(例如String
)。
use std::borrow::Cow;
fn main() {
let str1 = "Hello";
let mut cow: Cow<str> = Cow::from(str1);
cow.to_mut().push_str(" World");
let owned: String = cow.into_owned();
println!("{owned}"); // Hello World
println!("{str1}"); // Hello
}
在消費掉Cow
之後,Cow
將不再可用,但它之前借用的原數據不受影響。
用途
說了這麼多,Cow
到底有什麼用呢?少複製幾次數據真的那麼重要嗎?讓我們看看標準庫中的String::from_utf8_lossy
方法吧。
String::from_utf8_lossy
是一個把一個位元組切片(&[u8]
)按照UTF-8轉換成&str
的方法,並且會用“�”字元來替換掉位元組切片中UTF-8不支持的字元。舉個例子:
// 不包含錯誤位元組的情況
fn main() {
let hello = vec![72, 69, 76, 76, 79];
let hello = String::from_utf8_lossy(&hello);
assert_eq!("HELLO", hello);
}
以及:
// 包含錯誤位元組的情況
fn main() {
let input = b"Hello \xF0\x90\x80World";
let output = String::from_utf8_lossy(input);
assert_eq!("Hello �World", output);
}
現在假設我們是Rust標準庫API的設計師,我們要為from_utf8_lossy
方法選擇一個恰當的返回類型。
返回&str
可以嗎?
最直接的想法就是返回一個&str
,就像這樣:
fn from_utf8_lossy<'a>(v: &'a [u8]) -> &'a str {
todo!()
}
這種方案可以嗎?仔細想想,當位元組切片中有UTF-8中不支持的錯誤字元時,錯誤字元需要被替換成“�”;直接返回&str
的話是做不了對字元串內容的修改的。
返回String
呢?
順著剛纔的思路,因為我們可能需要修改字元串,所以我們就需要返回&str
的棧上類型String
,合情合理:
fn from_utf8_lossy(v: &[u8]) -> String {
todo!()
}
不過,另一個問題冒出來了:雖然返回String
完美地解決了修改字元串之後會導致新字元串無處存放的問題,但是如果舊的字元串(位元組切片)不需要修改的話,也需要被覆制到String
中,這無形中增加了很多不必要的消耗;而且,位元組切片中有錯誤字元是概率很小的事件,為了小概率事件影響拖累大概率發生的正常情況的性能,這值得嗎?
這時,我一拍大腿:在需要修改時返回String
,不需要修改時返回&str
不就好了?
返回(Option<&str>, Option<String>)
(或者Either<&str, String>
)
這樣,上面所描述的性能和功能矛盾就解決了:
fn from_utf8_lossy<'a>(v: &'a [u8]) -> (Option<&'a str>, Option<String>) {
todo!()
}
但這種解決方式也不是沒問題的:太複雜了……而且需要用戶判斷返回的是&str
還是String
。不過,這個要麼返回借用的&str
、要麼返回有所有權的String
的東西,是不是感覺有點眼熟?
這不就是Cow<str>
嘛!
最終方案:返回Cow<str>
經過一番艱難而複雜的思考,我們最終得到了最恰當的結果:
fn from_utf8_lossy(v: &[u8]) -> Cow<'_, str> {
todo!()
}
使用了Cow<str>
之後,它不僅可以在需要修改字元串時克隆並返回新數據,更可以在絕大多數普通情況之下直接借用數據;更妙的是,它可以享受Deref轉換的語法糖,可謂十分完美!
總結
Cow
是Rust中非常有用的一個類型,雖然日常開發中幾乎用不到它,但是某些性能敏感的場景下善用Cow
說不定會有奇效喔~