分散式存儲系統將用戶存儲的數據根據某種規則存儲到不同機器上,當用戶想要獲取指定數據時,再按照規則到存儲數據的機器中獲取。數據生產者/消費者、數據索引和數據存儲是分散式存儲系統的三大要素。 ...
分散式數據存儲三要素
什麼是分散式數據存儲系統?
分散式存儲系統的核心邏輯,就是將用戶需要存儲的數據根據某種規則存儲到不同的機器上,當用戶想要獲取指定數據時,再按照規則到存儲數據的機器中獲取。
分散式存儲系統的三要素:
- 數據生產者 / 數據消費者
- 數據索引
- 數據存儲
數據生產者生產數據,將數據存儲到分散式數據存儲系統中,數據消費者是從分散式數據存儲系統中獲取數據進行消費;數據索引將訪問數據的請求轉發到數據所在的存儲節點;存儲設備用來存儲數據。
分散式系統數據類型
分散式系統中存在大量不同類型的數據,根據數據的特征,我們可以將其分為三類:
- 結構化數據,指關係模型數據,特征是數據關聯較大、格式固定,一般採用分散式關係資料庫進行存儲和查詢。
- 半結構化數據,指非關係模型數據,有基本固定結構模式的數據,特征是數據之間關係比較簡單,一般採用分散式鍵值系統進行存儲和使用。
- 非結構化數據,指沒有固定模式的數據,特征是數據之間關聯不大,這種數據一般存儲到文檔中,通過ElasticSearch等進行檢索。
數據分片與數據複製
數據分片技術,是指分散式存儲系統按照一定的規則,將數據存儲到相應的存儲節點中,或者到相應的存儲節點中獲取想要的數據。這種技術一方面可以降低單個存儲節點的存儲和訪問壓力,另一方面可以通過規定好的規則快速找到數據所在的存儲節點,從而大大降低搜索延遲,提高用戶體驗。
數據分片可以採取不同的方式,包括:
- 數據特征分片
- 數據範圍分片
- 哈希分片
- 一致性哈希分片
數據複製是指將數據進行備份,使得多個節點存儲該數據。它可以通過主備方式存儲的方式,提高分散式系統的可用性和可靠性。
在實際的分散式存儲系統中,數據分片和數據複製通常是共存的:
- 數據通過分片方式存儲到不同的節點上,以減少單節點的性能瓶頸問題。
- 數據的存儲通過主備方式保證可靠性,即對每個節點上存儲的分片數據,採用主備方式存儲,來保證數據可靠性,其中主備節點上數據一致,是通過數據複製技術實現的。
數據存儲
根據上述三種不同的數據類型,常採用的數據存儲選型方案如下:
- 分散式資料庫,通過表格來存儲結構化數據,方便查找。常見的方案包括:MySQL Sharding、Microsoft SQL Azure、Google Spanner、Alibaba OceanBase等。
- 分散式鍵值系統,通過兼職對來存儲半結構化數據。常見的方案包括:Redis、Memcache等。
- 分散式存儲系統,通過文件、塊、對象等來存儲非結構化數據。常見的方案包括:Ceph、GFS、HDFS、Swift等。
詳細的分散式資料庫比較如下。
詳細的分散式存儲系統比較如下。