001.Heartbeat簡介

来源:https://www.cnblogs.com/itzgr/archive/2018/12/27/10187239.html
-Advertisement-
Play Games

一 Heartbeat簡介 1.1 概述 Heartbeat是Linux-HA項目中的一個組件,也是當前開源HA項目中最成功的一個例子,它提供了所有HA軟體所需要的基本功能,如心跳檢測和資源接管、監測群集中的系統服務、在群集中的節點間轉移共用IP地址的所有者等。heartbeat最核心的功能包括兩個 ...


一 Heartbeat簡介

1.1 概述

Heartbeat是Linux-HA項目中的一個組件,也是當前開源HA項目中最成功的一個例子,它提供了所有HA軟體所需要的基本功能,如心跳檢測和資源接管、監測群集中的系統服務、在群集中的節點間轉移共用IP地址的所有者等。heartbeat最核心的功能包括兩個部分,心跳監測和資源接管。心跳監測可以通過網路鏈路和串口進行,而且支持冗 餘鏈路,它們之間相互發送報文來告訴對方自己當前的狀態,如果在指定的時間內未收到對方發送的報文,那麼就認為對方失效,這時需啟動資源接管模塊來接管運行在對方主機上的資源或者服務。

1.2 相關概念

節點(node):運行heartbeat進程的一個獨立主機,稱為節點,節點是HA的核心組成部分,每個節點上運行著操作系統和heartbeat軟體服務,在heartbeat集群中,節點有主次之分,分別稱為主節點和備用/備份節點,每個節點擁有唯一的主機名,並且擁有屬於自己的一組資源,例如,磁碟、文件系統、網路地址和應用服務等。主節點上一般運行著一個或多個應用服務,而備用節點一般處於監控狀態。

資源(resource):資源是一個節點可以控制的實體,並且當節點發生故障時,這些資源能夠被其它節點接管,heartbeat中,可以當做資源的實體通常有:

  • 磁碟分區、文件系統
  • IP地址
  • 應用程式服務
  • NFS文件系統

事件(event):也就是集群中可能發生的事情,例如節點系統故障、網路連通故障、網卡故障、應用程式故障等。這些事件都會導致節點的資源發生轉移,HA的測試也是基於這些事件來進行的。

動作(action):事件發生時HA的響應方式,動作是由shell腳步控制的,例如,當某個節點發生故障後,備份節點將通過事先設定好的執行腳本進行服務的關閉或啟動,進而接管故障節點的資源。

1.3 Heartbeat 2.x組件

Heartbeat提供了高可用集群最基本的功能,例如,節點間的內部通信方式、集群合作管理機制、監控工具和失效切換功能等等,目前的最新版本是Heartbeat3.x,Heartbeat 2.x內部組成主要分為以下幾大部分:

  • heartbeat: 節點間通信檢測模
  • Heartbeat支持通過以下網路鏈接類型進行群集通信:
    • 單播UDP over IPv4;
    • 廣播UDP over IPv4;
    • 多播UDP over IPv4;
    • 串列鏈路通信。
  • ha-logd: 集群事件日誌服務
  • CCM(Consensus Cluster Membership):集群成員一致性管理模塊
    • CCM提供強關聯的共識集群成員資格服務。它確保計算成員資格中的每個節點都可以與此相同成員資格中的每個其他節點進行通信。
  • LRM (Local Resource Manager):本地資源管理模塊
  • Stonith Daemon: 使出現問題的節點從集群環境中脫離
  • CRM(Cluster resource management):集群資源管理模塊
  • Cluster policy engine: 集群策略引擎
  • Cluster transition engine:集群轉移引擎

001_thumb1

1.4 Heartbeat 3.x組件

Heartbeat:將原來的消息通信層獨立為heartbeat項目,新的heartbeat只負責維護集群各節點的信息以及它們之前通信;

Cluster Glue:相當於一個中間層,它用來將heartbeat和pacemaker關聯起來,主要包含2個部分,即為LRM和STONITH;

Resource Agent:用來控制服務啟停,監控服務狀態的腳本集合,這些腳本將被LRM調用從而實現各種資源啟動、停止、監控等等;

Pacemaker:即Cluster Resource Manager(集群資源管理器,簡稱CRM),用來管理整個HA的控制中心,客戶端通過pacemaker來配置管理監控整個集群;

Pacemaker 提供了多種用戶管理介面,分別如下:

  • 基於命令的管理方式
    • crmsh
    • pcs
  • 基於圖形界面的管理方式
    • pygui
    • hawk
    • LCMC
    • pcs
  • Pacemaker內部組件與模塊

002_thumb1

  • Heartbeat v3.x 內部組件

003_thumb1

更多說明參考:http://clusterlabs.org/

1.5 Heartbeat特性

Heartbeat,它僅僅提供HA基本功能,能完成心跳監控和資源接管,但不會監視它控制的資源或應用程式,要監控資源和應用程式是否運行正常,必須結合第三方的插件,例如ipfail、Mon、Ldirector等。

Heartbeat自身包含了幾個插件,分別是ipfail、Stonith和Ldirectord:

ipfail的功能直接包含在Heartbeat裡面,主要用於檢測網路故障,並作出合理的反應。ipfail使用ping節點或者ping節點組來檢測網路連接是否出現故障,從而及時的做出轉移措施。

Stonith插件可以在一個沒有響應的節點恢復後,合理接管集群服務資源,防止數據衝突。當一個節點失效後,會從集群中刪除,如果不使用Stonith插件,那麼失效的節點可能會導致集群服務在多於一個節點運行,從而造成數據衝突甚至是系統崩潰。因此,使用Stonith插件可以保證共用存儲環境中的數據完整性。

Ldirector是一個監控集群服務節點運行狀態的插件。Ldirector如果監控到集群節點中某個服務出現故障,就屏蔽此節點的對外連接功能,同時將後續請求轉移到正常的節點提供服務,這個插件經常用在LVS負載均衡集群中。

同樣,對於操作系統自身出現的問題,Heartbeat也無法監控,如果主節點操作系統掛起,一方面可能導致服務中斷,另一方面由於主節點資源無法釋放,而備份節點卻接管了主節點的資源,此時就發生了兩個節點同時爭用一個資源的狀況。

為防止此情況發生,需要在linux內核中啟用一個叫watchdog的模塊,watchdog是一個Linux內核模塊,它通過定時向/dev/watchdog設備文件執行寫操作,從而確定系統是否正常運行,如果watchdog認為內核掛起,就會重新啟動系統,進而釋放節點資源。

在linux中完成watchdog功能的軟體叫softdog,softdog維護一個內部計時器,此計時器在一個進程寫入/dev/watchdog設備文件時更新,如果softdog沒有看到進程寫入/dev/watchdog文件,就認為內核可能出了故障。watchdog超時周期預設是一分鐘,可以通過將watchdog集成到Heartbeat中,從而通過Heartbeat來監控系統是否正常運行。

1.6 Heartbeat工作原理

heartbeat內部結構有三大部分組成:

集群成員一致性管理模塊(CCM)用於管理集群節點成員,同時管理成員之間的關係和節點間資源的分配,heartbeat模塊負責檢測主次節點的運行狀態,以決定節點是否失效。ha-logd模塊用於記錄集群中所有模塊和服務的運行信息。

本地資源管理器(LRM)負責本地資源的啟動,停止和監控,一般由LRM守護進程lrmd和節點監控進程(Stonith Daemon)組成,lrmd守護進程負責節點間的通信,Stonith Daemon通常是一個Fence設備,主要用於監控節點狀態,當一個節點出現問題時處於正常狀態的節點會通過Fence設備將其重啟或關機以釋放IP、磁碟等資源,始終保持資源被一個節點擁有,防止資源爭用的發生。

    集群資源管理模塊(CRM)用於處理節點和資源之間的依賴關係,同時,管理節點對資源的使用,一般由CRM守護進程crmd、集群策略引擎和集群轉移引擎三個部分組成,集群策略引擎(Cluster policy engine)具體實施這些管理和依賴,集群轉移引擎(Cluster transition engine)監控CRM模塊的狀態,當一個節點出現故障時,負責協調另一個節點上的進程進行合理的資源接管。

    在Heartbeat集群中,最核心的是heartbeat模塊的心跳監測部分和集群資源管理模塊的資源接管部分,心跳監測一般由串列介面通過串口線來實現,兩個節點之間通過串口線相互發送報文來告訴對方自己當前的狀態,如果在指定的時間內未受到對方發送的報文,那麼就認為對方失效,這時資源接管模塊將啟動,用來接管運行在對方主機上的資源或者服務。

二 Heartbeat配置文件解析

2.1 ha.cf

主要配置項及解析如下:/usr/local/heartbeat/etc/ha.d/ha.cf

  1 #debugfile /var/log/ha-debug	#記錄Heartbeat調試日誌信息
  2 #logfile    /var/log/ha-log	#記錄Heartbeat其他相關日誌信息
  3 logfacility local0		#設置heartbeat的日誌,這裡用的是系統日誌
  4 #keepalive 2			#設定心跳(監測)時間間隔為2秒
  5 #deadtime 30

解釋:多長時間宣告節點死亡,即指定若備用節點在30秒內未收到主節點心跳信號,則判斷死亡,接管主伺服器資源。

  1 #warntime 10

解釋:指定心跳延遲的時間為10秒,10秒內備節點不能接收主節點心跳信號,即往日誌寫入警告日誌,但不會切換服務。

  1 #initdead 120

解釋:初始化時間,節點重啟後等待網路啟動需要一定時間,因此預留系統啟動或重啟後忽略的時間段,取值至少為deadtime的兩倍。

  1 #udpport    694			#用於通信的UDP埠
  2 #baud   19200			#串口波特率
  3 #serial /dev/ttyS0  # Linux
  4 #serial /dev/cuaa0  # FreeBSD
  5 #serial /dev/cuad0  # FreeBSD 6.x
  6 #serial /dev/cua/a  # Solaris	#各操作系統串口名字
  7 #bcast  eth0        # Linux
  8 #bcast  eth1 eth2   # Linux
  9 #bcast  le0         # Solaris
 10 #bcast  le1 le2     # Solaris	#接受廣播心跳的網卡介面
 11 #   mcast [dev] [mcast group] [port] [ttl] [loop]	#設置多播心跳檢測及設備,實例如下
 12 #mcast eth0 225.0.0.1 694 1 0	#配置為UDP多播監測心跳
 13 
 14 #   ucast [dev] [peer-ip-addr]				#設置單播心跳檢測及設備,示例如下
 15 #   [dev]			#發送和接受心跳的設備
 16 #   [peer-ip-addr]		#發送數據包到的對等點的IP地址
 17 #ucast eth0 192.168.1.2		#設置本機用於單播檢測心跳的網卡及需要檢測的對方IP

提示:Bcast、ucast和mcast分別代表廣播、單播和多播,是組織心跳的的方式,任選其一。

  1 #auto_failback on

解釋:auto_failback指當主節點由失敗轉為正常後,是否將服務自動切回。

auto_failback的通常可配置以下值:

on:自動故障恢復功能;

off:禁用自動故障恢復;

legacy:在系統中啟用自動故障恢復(預設項)。

  1 #stonith baytech /etc/ha.d/conf/stonith.baytech

解釋:該基本STONITH指令用於支持集群的STONITH設備,從配置文件讀取此設備的參數。格式為:

stonith < stonith_type > < configfile >.

  1 #stonith_host *     baytech 10.0.0.3 mylogin mysecretpassword
  2 #stonith_host ken3  rps10 /dev/ttyS1 kathy 0
  3 #stonith_host kathy rps10 /dev/ttyS1 ken3 0

解釋:以上為配置fence設置的命令,其命令格式為:

stonith_host <hostfrom> <stonith_type> <params...>

  • <hostfrom>:stonith設備連接到的機器,或*表示它可以從任何主機訪問。
  • <stonith_type>:stonith設備的類型(支持的驅動器列表在/usr/lib/stonith中)。
  • <params...>:驅動程式特定的參數,可通過stonith -l -t <stonith_type>查看。

stonith -L:獲得受支持的stonith設備的列表;

stonith -h:獲取關於支持哪些stonith設備及其詳細配置選項的詳細信息。

  1 #watchdog /dev/watchdog

解釋:watchdog通常用於監聽心跳,若一定時間心跳異常,則重啟機器。

註意:如果您使用軟體watchdog,建議模塊添加參數“nowayout=0”,或者編譯時不使用CONFIG_WATCHDOG_NOWAYOUT。否則,即使是心跳的有序關閉也會觸發重啟。

  1 #node   ken3
  2 #node   kathy			#集群節點的名稱,必須匹配uname -n的結果。
  3 #ping 10.10.10.254
  4 #ping_group group1 10.10.10.254 10.10.10.253

解釋:ping指令以及ping_group指令是用於建立偽集群成員,此兩項配置必須與下述ipfail指令一起使用,它們的作用是監測物理鏈路,即如果集群節點與上述偽設備不相通,那麼該節點也將無權接管資源或服務,它將釋放掉資源。

  1 #hbaping fc-card-name
  2 #respawn userid /path/name/to/run
  3 #respawn hacluster /usr/lib/heartbeat/ipfail

解釋:指定與heartbeat一同啟動和關閉的進程及該進程的用戶和組,該進程被自動監視,遇到故障則重新啟動。最常用的進程是ipfail,該進程用於檢測和處理網路故障,需要配合ping語句指定的ping node來檢測網路連接。如果你的系統是64bit,請註意該文件的路徑。

註意:一般啟動時會報錯,因為ping和ucast這些配置都需要插件支持,需要將lib64下麵的插件軟連接到lib目錄 才不會拋出異常:

  1 ln -svf /usr/local/heartbeat/lib64/heartbeat/plugins/RAExec/* \
  2 /usr/local/heartbeat/lib/heartbeat/plugins/RAExec/
  3 ln -svf /usr/local/heartbeat/lib64/heartbeat/plugins/* \
  4 /usr/local/heartbeat/lib/heartbeat/plugins/
  5 
  6 #apiauth client-name gid=gidlist uid=uidlist
  7 #apiauth ipfail gid=haclient uid=hacluster	#客戶端通過api訪問的許可權,預設是沒有訪問許可權
  8 
  9 #hopfudge 1			        #最大跳數減去配置中的節點數
 10 #deadping 30			#ping節點的死亡時間
 11 #hbgenmethod time		        #
 12 #realtime off			#預設開啟
 13 #debug 1			        #debug級別
 14 
 15 #apiauth ipfail uid=hacluster
 16 #apiauth ccm uid=hacluster
 17 #apiauth cms uid=hacluster
 18 #apiauth ping gid=haclient uid=alanr,root
 19 #apiauth default gid=haclient

解釋:設置uid和gid列表,若同時使用這兩種方法,那麼如果流程符合uid列表或gid列表下的條件,那麼它就是授權的。

  1 #msgfmt  classic/netstring		#消息格式,預設為classic
  2 # use_logd yes/no			#是否使用日誌守護進程,建議設置為yes
  3 #conn_logd_time 60			#連接失敗後重新連接日誌守護進程的時間間隔
  4 
  5 #compression    bz2
  6 #compression_threshold 2

解釋:配置壓縮模塊,可以是zlib,也可以是bz2,這取決於系統中是否有對應的庫。

配置壓縮消息的閾值壓縮閾值,若閾值是1,那麼任何大小大於1kb的消息都會被壓縮,預設值是2(KB)。

參考:

https://blog.csdn.net/beckdon/article/details/45341039

http://www.linux-ha.org/doc/users-guide

https://blog.csdn.net/xxj123go/article/details/72828896

https://blog.csdn.net/liaomin416100569/article/details/76087448

http://blog.chinaunix.net/uid-20788470-id-1841643.html

https://blog.csdn.net/whyhonest/article/details/8171537

http://blog.sina.com.cn/s/blog_7b6fc4c901012om0.html

http://blog.chinaunix.net/uid-20788470-id-1841644.html


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1 using System.Configuration; 2 using System.Windows.Forms; 3 4 namespace Allyn.Common 5 { 6 public class XmlHeper 7 { 8 /// 9 ///返回Config文件中appSettin... ...
  • 1 using System; 2 using System.Collections.Specialized; 3 using System.IO; 4 using System.Net; 5 using System.Text; 6 7 namespace Allyn.Common 8 { 9 p... ...
  • 微信的api開放的二維碼是一個鏈接地址,而我們要將這個二維碼顯示到客戶端。方式很多,今天我們講其中一種。 調用方式: 這個是訪問微信地址url,獲取到這個url中顯示的微信二維碼,拿到這個圖片,顯示到wpf 更多方式瞭解請加頁面下方的群 ...
  • 小弟初來乍到,分享一些工作學習中遇到的問題和解決方式,如有不准確或是有錯誤的地方,希望不吝賜教,謝過了。 --Dogtwo 背景: 一個代理伺服器BK,接收前端A發送的請求,記錄log,並轉發給另外的伺服器B。 請求中有類似這樣的模塊: Person: { name:abc, age: 20, ad ...
  • [HttpGet] public ActionResult JsonList() { int itemselect = ConvertHelper.SafeRequest("itemselect",0);//一級 int ProfessionID = ConvertHelper.SafeReques ...
  • 一 鏡像基本操作 鏡像是一個包含程式運行必要依賴環境和代碼的只讀文件,其本質是磁碟上一系列文件的集合。它採用分層的文件系統,將每一次改變以讀寫層的形式增加到原來的只讀文件上。鏡像是容器運行的基石。 1.1 搜索鏡像 docker命令必須具備root許可權,普通用戶可是用那個sudo。 提示:docke ...
  • 本書是由全國多名紅帽架構師(RHCA)基於最新Linux系統共同編寫的高質量Linux技術自學教程,極其適合用於Linux技術入門教程或講課輔助教材,目前是國內最值得去讀的Linux教材,也是最有價值的Linux實驗手冊。 章節包括有: 第0章 咱們先來談談學習方法和紅帽系統。 第1章 部署虛擬環境 ...
  • NFS配置文件許可權參數說明(/etc/exports) 1、rw :表示可讀寫許可權。 2、ro :表示只讀許可權。 3、sync :請求或寫入數據時,數據同步寫入到NFS Server的硬碟後才返回。(優點:數據安全不會丟。缺點:性能比啟用該參數要差)。 4、async :寫入時數據會先寫到記憶體緩衝區 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...