大家好,我是棧長。 昨天 17 點多,棧長興緻來了,忙裡偷閑正在看了一把 LOL S13 淘汰賽,沒想到比賽還沒看完朋友圈就已經炸鍋了: 朋友圈有人開玩笑說,阿裡 35 歲的人是不是都被優化了?還是雙 11 後都鬆懈了?這大周末的還讓加班?讓不讓人省心點。。 這我看完也有點懵 B ,大家還記得上次的 ...
大家好,我是棧長。
昨天 17 點多,棧長興緻來了,忙裡偷閑正在看了一把 LOL S13 淘汰賽,沒想到比賽還沒看完朋友圈就已經炸鍋了:
朋友圈有人開玩笑說,阿裡 35 歲的人是不是都被優化了?還是雙 11 後都鬆懈了?這大周末的還讓加班?讓不讓人省心點。。
這我看完也有點懵 B ,大家還記得上次的語雀重大故障吧,弄了近 8 小時才完全恢復,這剛過去 10 來天,又來?這不是像阿裡這樣的大廠該有的作為啊!!
這次影響的還不只是語雀,阿裡系大部分產品都受到影響,包括:淘寶、阿裡雲、釘釘、語雀、閑魚、阿裡雲盤……
好家伙,一堆產品都上了微博熱搜,熱度甚至蓋過了 S13 半決賽。。
說到 LOL,這比賽都打的啥啊,太無語了,我上我也行,就這狀態,看得太失望了。
其他影響倒還好,阿裡雲眾多產品都受到了故障影響。。。
LOL 都看完了還沒有完全恢復,直到晚上 21:11 分所有雲產品才基本恢復正常:
阿裡雲確認故障原因與某個底層服務組件有關,這麼大個故障,居然都沒做好各種測試?我也是大寫的服!這次故障後,這位運維同學、總監的年終獎怕是沒有了。
阿裡雲服務狀態查詢網站:
棧長寫文時,阿裡雲服務顯示已恢復正常:
說到雲伺服器,為了提升企業開發和運營效率,不少公司都會選擇雲伺服器,相信這次事件會給不少使用雲伺服器的人敲響警鐘。
我個人也用雲伺服器,包括小程式:Java面試庫、博客網站、各種課程的後臺系統等,都會用到雲伺服器,期間也出現過服務中斷的情況,也有慘痛的、折騰死我的情況,所以,為了用戶體驗,我做任何操作都十分謹慎。。
為了服務穩定性,我總結了以下幾個要點:
1、數據備份
不要相信任何平臺,數據不在你手裡,就不是你的,可能隨時找不回,所以,如果要使用雲產品,養成定時備份數據的習慣是非常重要的。
數據備份可以是這樣:
- 使用高可用的雲產品;
- 定期對系統盤備份鏡像;
- 做任何敏感運維操作都提前對系統備份鏡像;
- 每天對數據盤進行快照;
- 手動備份重要數據到其他安全的地方;
- ……
2、多雲策略
不要全部依賴單一雲服務提供商,一個平臺出現故障,即使是高可用也是無解。可以考慮分散式部署,比如將一部分服務放在阿裡雲,另一部分放在騰訊雲或其他雲,這樣不至於阿裡雲故障導致所有服務不可用。
其他雲產品也是如此,雞蛋不要放在一個籃子里。
3、鏡像環境 + 灰度發佈
可以做一個鏡像環境,和線上環境一模一樣,系統上線時先在鏡像環境上線,如測試沒事再線上上環境進行灰度發佈,這也不至於影響所有用戶吧?
4、應急預案
不管怎麼樣,處理緊急意外情況的預案還要是有的,提前制定好詳細的應急預案,包括數據備份、緊急切換到備用系統等,做好全方位的監控,確保在系統服務中斷時,業務能迅速恢復,從而不影響到業務。
所以,要做好應急預案,隨時可以回滾,能迅速恢復服務,這是非常重要的,長時間折騰故障分析故障原因對真的不可取,這對企業和用戶來說都是災難。
說說感受:
阿裡這個重大故障,就這事確實挺誇張的,我個人也挺想不通,阿裡是國內的龍頭 IT 大廠,這麼大個企業,這麼多產品受到這麼長時間的故障影響,還一而再再而三的出現重大事故,真的會讓不少人失去信心。
雲伺服器還受這麼長時間影響,更不應該啊,想想全中國有多少企業和開發者都在用,任何一個小故障可能都會導致大量企業業務中斷,造成重大損失,甚至使公司倒閉。
大家還記得,之前有一家以數據為生存的公司因為雲伺服器故障導致數據全部丟失的事件吧,數據全丟了,結果公司也倒閉了,所以,記住,雞蛋不要放在一個籃子里,記得定期對數據進行備份。
上次語雀重大故障,大家都領到了 6 個月的會員補償,這次截止棧長寫文時,我並沒有在看到有類似的補償。當然,補償不是目的,只能安撫人心,我們希望雲產商做好服務穩定是首要的,不要讓大家對雲伺服器提心吊膽。
最後,雞蛋不要放在同一個籃子里!!!
近期熱文推薦:
1.1,000+ 道 Java面試題及答案整理(2022最新版)
4.別再寫滿屏的爆爆爆炸類了,試試裝飾器模式,這才是優雅的方式!!
覺得不錯,別忘了隨手點贊+轉發哦!