大型網站架構系列：緩存在分散式系統中的應用（二）

緩存是分散式系統中的重要組件，主要解決高併發，大數據場景下，熱點數據訪問的性能問題。提供高性能的數據快速訪問。本文是緩存在分散式應用第二篇文章，介紹分散式緩存，Memcache，Redis，本地緩存（硬碟緩存，記憶體緩存）以及緩存在分散式系統中的架構示例。 ...

緩存是分散式系統中的重要組件，主要解決高併發，大數據場景下，熱點數據訪問的性能問題。提供高性能的數據快速訪問。

本文是緩存在分散式應用第二篇文章，介紹分散式緩存，Memcache，Redis，本地緩存（硬碟緩存，記憶體緩存）以及緩存在分散式系統中的架構示例。本文主要是自己的學習總結和網路文章摘錄，供學習之用。

本次分享大綱

緩存概述
CDN緩存
反向代理緩存
分散式緩存
本地緩存
緩存架構示例
參考資料
分享總結

四、分散式緩存

CDN,反向代理緩存，主要解決靜態文件，或用戶請求資源的緩存，數據源一般為靜態文件或動態生成的文件（有緩存頭標識）。

分散式緩存，主要指緩存用戶經常訪問數據的緩存，數據源為資料庫。一般起到熱點數據訪問和減輕資料庫壓力的作用。

目前分散式緩存設計，在大型網站架構中是必備的架構要素。常用的中間件有Memcache，Redis。

4.1Memcache

Memcache是一個高性能，分散式記憶體對象緩存系統，通過在記憶體里維護一個統一的巨大的hash表，它能夠用來存儲各種格式的數據，包括圖像、視頻、文件以及資料庫檢索的結果等。簡單的說就是將數據調用到記憶體中，然後從記憶體中讀取，從而大大提高讀取速度。

Memcache特性：

（1）使用物理記憶體作為緩存區，可獨立運行在伺服器上。每個進程最大2G，如果想緩存更多的數據，可以開闢更多的memcache進程（不同埠）或者使用分散式memcache進行緩存，將數據緩存到不同的物理機或者虛擬機上。

（2）使用key-value的方式來存儲數據，這是一種單索引的結構化數據組織形式，可使數據項查詢時間複雜度為O(1)。

（3）協議簡單：基於文本行的協議，直接通過telnet在memcached伺服器上可進行存取數據操作，簡單，方便多種緩存參考此協議；

（4）基於libevent高性能通信：Libevent是一套利用C開發的程式庫，它將BSD系統的kqueue,Linux系統的epoll等事件處理功能封裝成一個介面，與傳統的select相比，提高了性能。

（5）內置的記憶體管理方式：所有數據都保存在記憶體中，存取數據比硬碟快，當記憶體滿後，通過LRU演算法自動刪除不使用的緩存，但沒有考慮數據的容災問題，重啟服務，所有數據會丟失。

（6）分散式：各個memcached伺服器之間互不通信，各自獨立存取數據，不共用任何信息。伺服器並不具有分散式功能，分散式部署取決於memcache客戶端。

（7）緩存策略：Memcached的緩存策略是LRU（最近最少使用）到期失效策略。在memcached記憶體儲數據項時，可以指定它在緩存的失效時間，預設為永久。當memcached伺服器用完分配的內時，失效的數據被首先替換，然後也是最近未使用的數據。在LRU中，memcached使用的是一種Lazy Expiration策略，自己不會監控存入的key/vlue對是否過期，而是在獲取key值時查看記錄的時間戳，檢查key/value對空間是否過期，這樣可減輕伺服器的負載。

4.1.1Memcache工作原理

MemCache的工作流程如下：

（1）先檢查客戶端的請求數據是否在memcached中，如有，直接把請求數據返回，不再對資料庫進行任何操作；

（2）如果請求的數據不在memcached中，就去查資料庫，把從資料庫中獲取的數據返回給客戶端，同時把數據緩存一份到memcached中（memcached客戶端不負責，需要程式實現）；

（3）每次更新資料庫的同時更新memcached中的數據，保證一致性；

（4）當分配給memcached記憶體空間用完之後，會使用LRU（Least Recently Used，最近最少使用）策略加上到期失效策略，失效數據首先被替換，然後再替換掉最近未使用的數據。

4.1.2Memcache集群

memcached 雖然稱為 “ 分散式 ” 緩存伺服器，但伺服器端並沒有 “ 分散式 ” 功能。每個伺服器都是完全獨立和隔離的服務。 memcached 的分散式，是由客戶端程式實現的。

當向memcached集群存入/取出key value時，memcached客戶端程式根據一定的演算法計算存入哪台伺服器，然後再把key value值存到此伺服器中。

存取數據分二步走，第一步，選擇伺服器，第二步存取數據。

分散式演算法(Consistent Hashing)：

選擇伺服器演算法有兩種，一種是根據餘數來計算分佈，另一種是根據散列演算法來計算分佈。
餘數演算法：
先求得鍵的整數散列值，再除以伺服器台數，根據餘數確定存取伺服器。

優點：計算簡單，高效；

缺點：在memcached伺服器增加或減少時，幾乎所有的緩存都會失效。
散列演算法：（一致性Hash）
先算出memcached伺服器的散列值，並將其分佈到0到2的32次方的圓上，然後用同樣的方法算出存儲數據的鍵的散列值並映射至圓上，最後從數據映射到的位置開始順時針查找，將數據保存到查找到的第一個伺服器上，如果超過2的32次方，依然找不到伺服器，就將數據保存到第一臺memcached伺服器上。

如果添加了一臺memcached伺服器，只在圓上增加伺服器的逆時針方向的第一臺伺服器上的鍵會受到影響。

一致性Hash演算法：解決了餘數演算法增加節點命中大幅額度降低的問題，理論上，插入一個實體節點，平均會影響到：虛擬節點數 /2 的節點數據的命中。

4.2Redis

Redis 是一個開源（BSD許可）的，基於記憶體的，多數據結構存儲系統。可以用作資料庫、緩存和消息中間件。支持多種類型的數據結構，如字元串（strings），散列（hashes），列表（lists），集合（sets），有序集合（sorted sets）與範圍查詢， bitmaps， hyperloglogs 和地理空間（geospatial）索引半徑查詢。

內置了複製（replication），LUA腳本（Lua scripting）， LRU驅動事件（LRU eviction），事務（transactions）和不同級別的磁碟持久化（persistence），並通過 Redis哨兵（Sentinel）和自動分區（Cluster）提供高可用性（high availability）。

4.2.1Redis常用數據類型

1、String

　　常用命令：set,get,decr,incr,mget 。

　　應用場景：String是最常用的一種數據類型，與Memcache的key value存儲方式類似。

　　實現方式：String在redis內部存儲預設就是一個字元串，被redisObject所引用，當遇到incr,decr等操作時會轉成數值型進行計算，此時redisObject的encoding欄位為int。

2、Hash

　　常用命令：hget,hset,hgetall 。

　　應用場景：以存儲一個用戶信息對象數據，為例：

　　實現方式：

　 Redis Hash對應的Value，內部實際就是一個HashMap，實際這裡會有2種不同實現。

（1） Hash的成員比較少時Redis為了節省記憶體會採用類似一維數組的方式來緊湊存儲，而不會採用真正的HashMap結構，對應的value redisObject的encoding為zipmap；

（2）當成員數量增大時會自動轉成真正的HashMap,此時encoding為ht。

　　3、List

　　常用命令：lpush,rpush,lpop,rpop,lrange。

　　應用場景：

　　Redis list的應用場景非常多，也是Redis最重要的數據結構之一，比如twitter的關註列表，粉絲列表等都可以用Redis的list結構來實現。

　　實現方式：

　　Redis list的實現為一個雙向鏈表，可以支持反向查找和遍歷，方便操作。不過帶來了部分額外的記憶體開銷，Redis內部的很多實現，包括發送緩衝隊列等也都是用的這個數據結構。

　　4、Set

　　常用命令：sadd,spop,smembers,sunion。

　　應用場景：

　　Redis set對外提供的功能與list類似是一個列表的功能，特殊之處在於set是可以自動排重的，當你需要存儲一個列表數據，又不希望出現重覆數據時，set 是一個很好的選擇，並且set提供了判斷某個成員是否在一個set集合內的重要介面，這個也是list所不能提供的。

　　實現方式：

　　set 的內部實現是一個 value永遠為null的HashMap，實際就是通過計算hash的方式來快速排重的，這也是set能提供判斷一個成員是否在集合內的原因。

　　5、Sorted set

　　常用命令：zadd,zrange,zrem,zcard；

　　使用場景：

　　Redis sorted set的使用場景與set類似，區別是set不是自動有序的，而sorted set可以通過用戶額外提供一個優先順序(score)的參數來為成員排序，並且是插入有序的，即自動排序。當你需要一個有序的並且不重覆的集合列表，可以選擇sorted set數據結構，比如twitter 的public timeline可以以發表時間作為score來存儲，這樣獲取時就是自動按時間排好序的。

　　實現方式：

　　Redis sorted set的內部使用HashMap和跳躍表(SkipList)來保證數據的存儲和有序，HashMap里放的是成員到score的映射，而跳躍表裡存放的是所有的成員，排序依據是HashMap里存的score,使用跳躍表的結構可以獲得比較高的查找效率，並且在實現上比較簡單。