高併發分散式系統中生成全局唯一Id彙總

来源:http://www.cnblogs.com/baiwa/archive/2016/03/25/5318432.html
-Advertisement-
Play Games

數據在分片時,典型的是分庫分表,就有一個全局ID生成的問題。單純的生成全局ID並不是什麼難題,但是生成的ID通常要滿足分片的一些要求: 1 不能有單點故障。 2 以時間為序,或者ID里包含時間。這樣一是可以少一個索引,二是冷熱數據容易分離。 3 可以控制ShardingId。比如某一個用戶的文章要放 ...


數據在分片時,典型的是分庫分表,就有一個全局ID生成的問題。
單純的生成全局ID並不是什麼難題,但是生成的ID通常要滿足分片的一些要求:
   1 不能有單點故障。
   2 以時間為序,或者ID里包含時間。這樣一是可以少一個索引,二是冷熱數據容易分離。
   3 可以控制ShardingId。比如某一個用戶的文章要放在同一個分片內,這樣查詢效率高,修改也容易。
   4 不要太長,最好64bit。使用long比較好操作,如果是96bit,那就要各種移位相當的不方便,還有可能有些組件不能支持這麼大的ID。

一 twitter
twitter在把存儲系統從MySQL遷移到Cassandra的過程中由於Cassandra沒有順序ID生成機制,於是自己開發了一套全局唯一ID生成服務:Snowflake。
1 41位的時間序列(精確到毫秒,41位的長度可以使用69年)
2 10位的機器標識(10位的長度最多支持部署1024個節點)
3 12位的計數順序號(12位的計數順序號支持每個節點每毫秒產生4096個ID序號) 最高位是符號位,始終為0。
優點:高性能,低延遲;獨立的應用;按時間有序。 缺點:需要獨立的開發和部署。

原理


java 實現代碼

public class IdWorker {

private final long workerId;
private final static long twepoch = 1288834974657L;
private long sequence = 0L;
private final static long workerIdBits = 4L;
public final static long maxWorkerId = -1L ^ -1L << workerIdBits;
private final static long sequenceBits = 10L;
private final static long workerIdShift = sequenceBits;
private final static long timestampLeftShift = sequenceBits + workerIdBits;
public final static long sequenceMask = -1L ^ -1L << sequenceBits;
private long lastTimestamp = -1L;
public IdWorker(final long workerId) {
super();
if (workerId > this.maxWorkerId || workerId < 0) {
throw new IllegalArgumentException(String.format(
"worker Id can't be greater than %d or less than 0",
this.maxWorkerId));
}
this.workerId = workerId;
}
public synchronized long nextId() {
long timestamp = this.timeGen();
if (this.lastTimestamp == timestamp) {
this.sequence = (this.sequence + 1) & this.sequenceMask;
if (this.sequence == 0) {
System.out.println("###########" + sequenceMask);
timestamp = this.tilNextMillis(this.lastTimestamp);
}
} else {
this.sequence = 0;
}
if (timestamp < this.lastTimestamp) {
try {
throw new Exception(
String.format(
"Clock moved backwards. Refusing to generate id for %d milliseconds",
this.lastTimestamp - timestamp));
} catch (Exception e) {
e.printStackTrace();
}
}

this.lastTimestamp = timestamp;
long nextId = ((timestamp - twepoch << timestampLeftShift))
| (this.workerId << this.workerIdShift) | (this.sequence);
System.out.println("timestamp:" + timestamp + ",timestampLeftShift:"
+ timestampLeftShift + ",nextId:" + nextId + ",workerId:"
+ workerId + ",sequence:" + sequence);
return nextId;
}

private long tilNextMillis(final long lastTimestamp) {
long timestamp = this.timeGen();
while (timestamp <= lastTimestamp) {
timestamp = this.timeGen();
}
return timestamp;
}

private long timeGen() {
return System.currentTimeMillis();
}


public static void main(String[] args){
IdWorker worker2 = new IdWorker(2);
System.out.println(worker2.nextId());
}

}

2 來自Flicker的解決方案
因為MySQL本身支持auto_increment操作,很自然地,我們會想到藉助這個特性來實現這個功能。
Flicker在解決全局ID生成方案里就採用了MySQL自增長ID的機制(auto_increment + replace into + MyISAM)。一個生成64位ID方案具體就是這樣的:
先創建單獨的資料庫(eg:ticket),然後創建一個表:

CREATE TABLE Tickets64 (
id bigint(20) unsigned NOT NULL auto_increment,
stub char(1) NOT NULL default '',
PRIMARY KEY (id),
UNIQUE KEY stub (stub)
) ENGINE=MyISAM

  

當我們插入記錄後,執行SELECT * from Tickets64,查詢結果就是這樣的:

+-------------------+------+
| id | stub |
+-------------------+------+
| 72157623227190423 | a |
+-------------------+------+
在我們的應用端需要做下麵這兩個操作,在一個事務會話里提交:

REPLACE INTO Tickets64 (stub) VALUES ('a');
SELECT LAST_INSERT_ID();

這樣我們就能拿到不斷增長且不重覆的ID了。
到上面為止,我們只是在單台資料庫上生成ID,從高可用角度考慮,接下來就要解決單點故障問題:Flicker啟用了兩台資料庫伺服器來生成ID,通過區分auto_increment的起始值和步長來生成奇偶數的ID。

TicketServer1:
auto-increment-increment = 2
auto-increment-offset = 1

TicketServer2:
auto-increment-increment = 2
auto-increment-offset = 2

最後,在客戶端只需要通過輪詢方式取ID就可以了。

充分藉助資料庫的自增ID機制,提供高可靠性,生成的ID有序。
缺點:占用兩個獨立的MySQL實例,有些浪費資源,成本較高。

三 UUID

UUID生成的是length=32的16進位格式的字元串,如果回退為byte數組共16個byte元素,即UUID是一個128bit長的數字,
一般用16進位表示。
演算法的核心思想是結合機器的網卡、當地時間、一個隨即數來生成UUID。
從理論上講,如果一臺機器每秒產生10000000個GUID,則可以保證(概率意義上)3240年不重覆
優點:
(1)本地生成ID,不需要進行遠程調用,時延低
(2)擴展性好,基本可以認為沒有性能上限
缺點:
(1)無法保證趨勢遞增
(2)uuid過長,往往用字元串表示,作為主鍵建立索引查詢效率低,常見優化方案為“轉化為兩個uint64整數存儲”或者“折半存儲”(折半後不能保證唯一性)
四 基於redis的分散式ID生成器
首先,要知道redis的EVAL,EVALSHA命令:
原理

利用redis的lua腳本執行功能,在每個節點上通過lua腳本生成唯一ID。
生成的ID是64位的:

使用41 bit來存放時間,精確到毫秒,可以使用41年。
使用12 bit來存放邏輯分片ID,最大分片ID是4095
使用10 bit來存放自增長ID,意味著每個節點,每毫秒最多可以生成1024個ID
比如GTM時間 Fri Mar 13 10:00:00 CST 2015 ,它的距1970年的毫秒數是 1426212000000,假定分片ID是53,自增長序列是4,則生成的ID是:

5981966696448054276 = 1426212000000 << 22 + 53 << 10 + 41
redis提供了TIME命令,可以取得redis伺服器上的秒數和微秒數。因些lua腳本返回的是一個四元組。

second, microSecond, partition, seq
客戶端要自己處理,生成最終ID。

((second * 1000 + microSecond / 1000) << (12 + 10)) + (shardId << 10) + seq;
五 MongoDB文檔(Document)全局唯一ID

為了考慮分散式,“_id”要求不同的機器都能用全局唯一的同種方法方便的生成它。因此不能使用自增主鍵(需要多台伺服器進行同步,既費時又費力),
因此選用了生成ObjectId對象的方法。

ObjectId使用12位元組的存儲空間,其生成方式如下:

|0|1|2|3|4|5|6 |7|8|9|10|11|

|時間戳 |機器ID|PID|計數器 |

前四個位元組時間戳是從標準紀元開始的時間戳,單位為秒,有如下特性:

 1 時間戳與後邊5個位元組一塊,保證秒級別的唯一性;
 2 保證插入順序大致按時間排序;
 3 隱含了文檔創建時間;
 4 時間戳的實際值並不重要,不需要對伺服器之間的時間進行同步(因為加上機器ID和進程ID已保證此值唯一,唯一性是ObjectId的最終訴求)。

機器ID是伺服器主機標識,通常是機器主機名的散列值。

同一臺機器上可以運行多個mongod實例,因此也需要加入進程標識符PID。

前9個位元組保證了同一秒鐘不同機器不同進程產生的ObjectId的唯一性。後三個位元組是一個自動增加的計數器(一個mongod進程需要一個全局的計數器),保證同一秒的ObjectId是唯一的。同一秒鐘最多允許每個進程擁有(256^3 = 16777216)個不同的ObjectId。

總結一下:時間戳保證秒級唯一,機器ID保證設計時考慮分散式,避免時鐘同步,PID保證同一臺伺服器運行多個mongod實例時的唯一性,最後的計數器保證同一秒內的唯一性(選用幾個位元組既要考慮存儲的經濟性,也要考慮併發性能的上限)。

"_id"既可以在伺服器端生成也可以在客戶端生成,在客戶端生成可以降低伺服器端的壓力。

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 本人大一狗,內容僅為個人的初體會,有誤之處請見諒。 初學者可能剛接觸一些新名詞會感覺好像很厲害的樣子,有種不明覺厲的樣子。 比如多態,泛型,繼承,介面。其實這些也並不是很難,不要被名字所嚇到,不用怕,慢慢就會理解他了。 講一下多態,我認為多態是建立在繼承的基礎之上的。 我們想看看繼承。 這裡我們用了 ...
  • The Zen of Python, by Tim Peters Beautiful is better than ugly.Explicit is better than implicit.Simple is better than complex.Complex is better than c ...
  • 一、前言 本文主要測試redis實現session共用的實現方式,不討論如何讓nginx參與實現負載均衡等。 二、環境配置 本測試在Window下進行 三、安裝tomcat-redis-session-manager插件 1.源碼下載: 最新版源碼對jdk版本有要求,必須是JDk1.7,否則編譯通不 ...
  • Python的函數除了正常使用的必選參數外,還可以使用預設參數、可變參數和關鍵字參數。 預設參數 基本使用 預設參數就是可以給特定的參數設置一個預設值,調用函數時,有預設值得參數可以不進行賦值,如: 這樣調用power(5)時,相當於調用power(5, 2)。 設置預設參數時的註意事項: 一是必選 ...
  • Java實現數組排序 ...
  • 一、親密性原則 將相關的內容組織到一起,通過字體大小,留白分層等區分內容關係 改變成 如果通過間距就可以劃分區域,我們就不用線條,框架去劃分區域,這樣更加簡潔 改變成 註:1、透明度的改變:增強背景融合性與親密性 2、方向性:有指向的線條(色塊的利用可以產生視覺衝擊) 3、顏色:不要使用純黑色(可以 ...
  • 建造者模式(Builder) 類圖 描述 建造者: Builder:定義一個建造者抽象類,以規範產品對象的各個組成部分的建造。這個介面規定要實現對象的哪些部分的創建,並不涉及具體的對象部件的創建。 ConcreteBuilder:繼承Builder,針對不同的業務邏輯,具體化對象的各部分的創建。在建 ...
  • 對基於請求的分散式消息樹的分析 在MVC時有過濾器System.Web.Mvc.ActionFilterAttribute,它可以對action執行的整個過程進行攔截,執行前與執行後我們可以註入自己的代碼,這是我們實現對請求做監控的前提,對於一個請求來說,如果它是從Get或者Post過來的,我們會在 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...