摘要:集群運行過程中,根據集群的綜合負載和業務接入情況進行分析:增加CN可以適當降低CPU消耗,增大接入連接數,分散CN節點業務壓力,根據實際情況來識別是否要增加CN,如果是提升集群容量和擴展比能力,建議進行擴容操作。 本文分享自華為雲社區《【玩轉PB級數倉GaussDB(DWS)】線上運維-線上增 ...
摘要:集群運行過程中,根據集群的綜合負載和業務接入情況進行分析:增加CN可以適當降低CPU消耗,增大接入連接數,分散CN節點業務壓力,根據實際情況來識別是否要增加CN,如果是提升集群容量和擴展比能力,建議進行擴容操作。
本文分享自華為雲社區《【玩轉PB級數倉GaussDB(DWS)】線上運維-線上增刪CN》,作者:sevenjiang。
集群運行過程中,根據集群的綜合負載和業務接入情況進行分析:增加CN可以適當降低CPU消耗,增大接入連接數,分散CN節點業務壓力,根據實際情況來識別是否要增加CN,如果是提升集群容量和擴展比能力,建議進行擴容操作。
支持線上運維:
在符合增加CN、刪除CN界面的準入條件下,找低峰期時間窗進行操作。
準入條件:
1.增加CN要求集群狀態正常(集群狀態為Normal,非均衡,低性能狀態)
2.如果存在一個節點故障,只允許刪除該節點的CN
3.如果存在兩個以上的節點故障,不允許刪除CN
4.增加或刪除CN失敗,最新版本通過界面重入即可。
5.最少保留兩個CN,最大支持20個CN
界面操作步驟:
1.增加cn
找到集群,點擊 “更多”
展開更多後,點擊“管理cn節點”
展開“管理cn節點”
點擊“點擊增加cn節點”,選擇需要增加cn的個數,“點擊確認”即可
2.刪除cn
同上,“點擊刪除cn節點”
勾選需要刪除cn的節點前的覆選框,“點擊確認”即可
針對業務的影響:
pg_advisory_lock影響的操作:用戶業務等待鎖不報錯(設置了enable_online_ddl_waitlock ), 影響用戶DDL,DCL,truncate,vacuum,analyze,lock等操作(非DML操作)
影響時間:鎖集群時間=增量build耗時,一般小於20分鐘。
可能出現的情況:
1.增量build CN階段之前會進行短暫的鎖集群(pg_advisory_lock),如果有長事務中未提交的業務一直在執行,就會出現等鎖的情況,重試3次每次1個小時,還是不能加上鎖,增加CN操作會失敗回滾退出。
備註:每個CN都有可能出現等鎖的現象,如果要查詢可以通過如下語句進行查詢
select * from pg_locks where classid=65535 and classid=65535 and locktype='advisory' and mode = 'ShareLock' and granted='t';
2.增量build CN階段,如果業務下發了DDL操作,會出現界面端沒有返回成功的情況,類似於hang的現象,等待增量build完成,DDL提交成功,業務界面側返回成功。
3.刪除CN,如果使用到了LVS負載均衡,因為lvs存在重試機制,cn會出現短暫的連接失敗。
4.業務低峰期和高峰期,分別進行增加CN的操作,全量build耗時可能存在超過1倍以上的耗時差異,感知上時間會增長,是因為業務併發過大時,會與cn的build階段進行IO爭搶,增加cn加鎖階段也會有所延遲。
5.增刪CN階段,不支持其他類集群運維操作,例如:升級、擴容、溫備修複、快照等