這篇文章主要描述分散式系統中的單體調度機制,它是指一個集群中只有一個節點運行調度進程,並介紹Google Borg的單體調度設計思路。 ...
調度框架:單體調度
什麼是調度?
分散式系統架構的目的是將多個伺服器資源管理起來,對外提供服務。調度是指為用戶任務尋找合適的伺服器的過程,它是分散式系統中一個非常重要的組件,提供了多種調度策略,負責完成具體的調度工作。
什麼是單體調度?
分散式系統中的單體調度是指一個集群中只有一個節點在運行調度進程,該節點對集群中的其他節點具有訪問許可權,可以對其他節點的資源信息、節點狀態進行統一管理,同時根據用戶下發的任務對資源的需求,在調度器中進行任務和資源匹配,然後根據匹配結果將任務指派給合適的節點。
單體調度器具有全局資源視圖和全局任務,可以實現對任務的約束並實施全局性的調度策略。
在單體調度框架中,多個Node節點會將本節點的State上報給Master節點。Master節點將Node State信息記錄在Cluster State模塊中,Cluster State模塊用於管理集群中節點的資源等狀態。Master節點中的Scheduling Logic模塊用於進行Tasks與節點資源的匹配。當Master需要下發任務時,Cluster State模塊會將節點的資源狀態傳送給Scheduling Logic模塊,以便Scheduling Logic模塊進行Tasks與資源匹配,並根據匹配結果將Task發送給匹配到的節點。
具體結構和流程如下圖。
單體調度的特征:
- 單體調度器可以很容易實現對作業的約束並實現全局性的調度策略,因此適合作為批處理任務和吞吐量較大、運行時間較長的任務。
- 單體調度系統的狀態同步比較容易且穩定。
- 調度演算法只能全部內置到核心調度器當中,因此調度框架的靈活性和可擴展性不高。
- 單體調度存在單點故障發生的可能性。
Borg調度設計
Borg是典型的集中式集群管理系統,Scheduler是它的核心組件。
Borg系統中包括作業(Job)和任務(Task):
- 作業:它通常包括作業名稱、作業生產者和作業包含的任務數量,它可以有一些約束來限製作業中的任務運行在指定的機器上,這些約束可以是剛性的,也可以是柔性的。一個作業只能在一個集群中運行。
- 任務:一組Linux進程,運行在一臺機器上的一個容器內或者直接運行在節點上。
一個作業可以包含多個任務,作業類似於用戶在一次事務處理或計算過程中要求電腦所做工作的總和,而任務就是一項具體的工作。
多個任務可以在多台機器上同時運行,從而提高系統的並行程度,調度器會來負責將任務分配給合適的機器。
Borg中的調度是以任務為單位的,不是以作業為單位。
Borg調度演算法的核心思想是“篩選可行,評分取優”。它分為兩個階段:
- 可行性檢查:找到一組可以運行任務的機器。
- 評分:從可行的機器中選擇一個合適的機器。
兩種不同的匹配演算法:
- 最差匹配演算法:將任務儘量分散到不同的機器上,以並行的方式提高任務執行的速度,它的問題在於每個機器都會有少量無法使用的剩餘資源,稱為”碎片資源“。
- 最佳匹配演算法:把同一個機器上的任務塞得越滿越好,這樣可以空出一些空閑的機器,用於部署計算資源需求大的任務。它類似於”把所有雞蛋放到一個籃子里“,當對應的伺服器發生故障後,運行在這台伺服器上的任務會受影響。它不利於有突發負載的應用。
一般來說,對於資源緊缺,且業務流量比較規律,基本不會出現突發情況的場景,可以選擇最佳匹配演算法, 如果資源比較豐富,且業務流量會經常出現突發情況的場景,可以選擇最差匹配演算法。
Borg的任務部署機制支持優先順序高的任務搶占優先順序低的任務資源,如果評分演算法選中的機器上沒有足夠的資源來運行新任務,Borg會搶占該機器上已部署的低優先順序任務的資源,從最低優先順序的任務開始,逐級向上搶占任務資源,直到可用資源足夠運行新任務。其中,被強占的任務會放回到調度器的等待隊列中。
作者:李潘 出處:http://wing011203.cnblogs.com/ 本文版權歸作者和博客園共有,歡迎轉載,但未經作者同意必須保留此段聲明,且在文章頁面明顯位置給出原文連接,否則保留追究法律責任的權利。