生產事故-走近科學之消失的JWT

来源:https://www.cnblogs.com/mylibs/archive/2023/04/17/production-accident-0003.html
-Advertisement-
Play Games

入職多年,面對生產環境,儘管都是小心翼翼,慎之又慎,還是難免捅出簍子。輕則滿頭大汗,面紅耳赤。重則系統停擺,損失資金。每一個生產事故的背後,都是寶貴的經驗和教訓,都是項目成員的血淚史。為了更好地防範和遏制今後的各類事故,特開此專題,長期更新和記錄大大小小的各類事故。有些是親身經歷,有些是經人耳傳口授 ...


入職多年,面對生產環境,儘管都是小心翼翼,慎之又慎,還是難免捅出簍子。輕則滿頭大汗,面紅耳赤。重則系統停擺,損失資金。每一個生產事故的背後,都是寶貴的經驗和教訓,都是項目成員的血淚史。為了更好地防範和遏制今後的各類事故,特開此專題,長期更新和記錄大大小小的各類事故。有些是親身經歷,有些是經人耳傳口授,但無一例外都是真實案例。

註意:為了避免不必要的麻煩和商密問題,文中提到的特定名稱都將是化名、代稱。

0x00 大綱

目錄

0x01 事故背景

2021年11月26日01時10分,P公司正在進行某業務系統的生產環境部署操作,但其實早在00時30分的時候,他們已經完成過一次部署了,但是奇怪的是無論如何都通不過驗證,無奈只好推倒重來,如此反覆了有若幹次。為何反覆嘗試,卻不嘗試去尋找問題呢?問題就在於該系統同一份代碼在開發環境和 UAT 環境均一切正常,唯獨部署到生產環境上面就不行。這是一個前後端分離的業務系統,前端與後端介面基於 JWT 而不是傳統 Session 進行鑒權認證。故障的現象也很簡單,就是無法登錄——準確的說,是登錄後不能維持登錄狀態,一訪問其他需要鑒權的資源立馬又被重定向到登錄頁面。2020年10月25日02時30分,在運維人員多次嘗試無果,開發人員排查代碼也未發現問題後,P公司不得不直呼見鬼。那麼真相究竟是什麼呢?

0x02 事故分析

RFC 7519 規範中對於 JWT 是這樣描述的:

JSON Web Token (JWT) is a compact, URL-safe means of representing claims to be transferred between two parties. The claims in a JWT are encoded as a JSON object that is used as the payload of a JSON Web Signature (JWS) structure or as the plaintext of a JSON Web Encryption (JWE) structure, enabling the claims to be digitally signed or integrity protected with a Message Authentication Code(MAC) and/or encrypted.

JWT (JSON Web Token) 是一種緊湊、URL 安全的表示方式,用於表達要在兩個參與方之間傳輸的安全聲明。JWT 中的聲明被編碼為 JSON 對象,作為 JSON Web Signature (JWS) 結構的有效載荷或 JSON Web Encryption (JWE) 結構的明文,使得聲明可以使用消息認證碼 (MAC) 進行數字簽名或完整性保護和/或加密。

說人話呢意思就是 JWT 是一種安全令牌的標準化實現,用於參與雙方之間的可信交互認證。既然不好定位是環境還是代碼的問題,不妨先捋一捋 JWT 鑒權認證的過程,看看問題可能發生在哪一步:

JWT鑒權認證流程

  1. 從故障現象來看,步驟①出問題的可能性基本被排除,從前端請求和後端日誌來看賬號和密碼的驗證過程已經正確完成;
  2. 那麼步驟②有沒有可能出問題呢?當時也是懷疑過的,但是使用瀏覽器的 F12 開發者工具,看到 login 的網路請求響應中已經將後端生成的 JWT 返回來了;
  3. 莫非是步驟③沒有將 JWT 正確攜帶,導致後續驗證不通過?但是查看登陸後,對其他介面的請求,裡面確實已經攜帶了步驟②中提供的 JWT,而且數值也一致;
  4. 驗證JWT的代碼邏輯會不會有問題呢?可能性不大,因為在測試環境和 UAT 環境已經反覆驗證過。

那麼問題還是出在步驟③攜帶 JWT 這一步。前面分析過前端發起請求時,已經攜帶了 JWT,那麼有沒有可能是後端沒收到或者收到的值不正確呢?很可惜,後端收到 JWT 後沒有列印相關的日誌……只有簡單的提示驗證失敗的信息。但其實到這裡,已經可以懷疑是環境的問題了,因為同樣的代碼只在生產環境出錯。

隨機抽取一個運維小伙子,讓他說說生產的系統結構,從他口中得知,生產上除了為了部署多個節點,使用了 Nginx 作為負載均衡和反向代理外,其他地方沒有區別。憑藉往常的經驗呢,P公司的員工們首先呢就沒有懷疑過反代和負載會影響這個業務功能,但是我們的理性分析又提示我們問題很有可能出在這裡。

不妨找個機器驗證一下,安裝和生產環境相同版本的 Nginx,然後配置一下反代和負載。對了,這回啊,在後端把列印 JWT 的Debug日誌加上。然後果不出所料,前端雖然在請求頭中攜帶了 JWT,但是到了後端,卻顯示沒有這個信息,這個頭,它丟到哪裡去了呢?

0x03 事故原因

前端在步驟③請求頭中攜帶的 JWT 如下,HTTP_HEADER_NAME 為 “JWT_TOKEN”,HTTP_HEADER_VALUE 為 JWT 的值:

JWT_TOKEN: eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJkYXRhIjpbb2x0...

在後端日誌中,除了 JWT_TOKEN 以外,其他的頭部信息都正常傳遞,我們註意到,它的 HTTP_HEADER_NAME 包含了下劃線,這是它與眾不同的地方。難道是被 Nginx 過濾了?

在 Nginx 的官方文檔里,有這麼一段話:

Missing (disappearing) HTTP Headers

If you do not explicitly set underscores_in_headers on;, NGINX will silently drop HTTP headers with underscores (which are perfectly valid according to the HTTP standard). This is done in order to prevent ambiguities when mapping headers to CGI variables as both dashes and underscores are mapped to underscores during that process.

消失的 HTTP Headers

如果你沒有顯式設置 underscores_in_headers on;,NGINX 會靜悄悄地幹掉帶有下劃線的 HTTP 請求頭(雖然它們符合 HTTP 規範,毀滅你與你何干……)。這樣做是為了防止在將請求頭映射到 CGI 變數時出現歧義,因為在此過程中,短劃線和下劃線都映射到下劃線。

ngx_http_parse.c 中,這個開關是這樣處理的:

/* header name */
case sw_name:
    c = lowcase[ch];

    if (c) {
        hash = ngx_hash(hash, c);
        r->lowcase_header[i++] = c;
        i &= (NGX_HTTP_LC_HEADER_LEN - 1);
        break;
    }

    if (ch == '_') {
        if (allow_underscores) {
            hash = ngx_hash(hash, ch);
            r->lowcase_header[i++] = ch;
            i &= (NGX_HTTP_LC_HEADER_LEN - 1);

        } else {
            r->invalid_header = 1;
        }

        break;
    }
    // ……(太長只截取關鍵部分)
    break;

如果沒有開啟underscores_in_headers開關,對應變數allow_underscores,則預設情況下,帶有下劃線的 HTTP_HEADER 會被標記為 INVALID_HEADER.而標記為 INVALID_HEADER 的信息預設情況下,會被忽略掉,為什麼說預設呢?因為這個行為同時還受到另一個開關ignore_invalid_headers控制,如果它被開啟,那麼帶有下劃線的 HTTP_HEADER 就真的神秘消失了。

關於 underscores_in_headers 選項:

Syntax: underscores_in_headers on | off;

Default: underscores_in_headers off;

Context: http, server

Enables or disables the use of underscores in client request header fields. When the use of underscores is disabled, request header fields whose names contain underscores are marked as invalid and become subject to the ignore_invalid_headers directive.

關於 ignore_invalid_headers 選項:

Syntax: ignore_invalid_headers on | off;

Default: ignore_invalid_headers on;

Context: http, server

Controls whether header fields with invalid names should be ignored. Valid names are composed of English letters, digits, hyphens, and possibly underscores (as controlled by the underscores_in_headers directive).

可以看到underscores_in_headers選項預設情況下是關閉的,而ignore_invalid_headers選項預設情況下是開啟的,這也就導致了我們 JWT_TOKEN 的神秘失蹤,至此問題已經定位完畢。

0x04 事故復盤

這次可以說是純純的意外,但是這個意外本可以發現的更早:

  • 再窮也好,至少也要申請一個與生產環境相同/相仿的復刻環境。
  • 統一且規範的命名,或許可以避免很多不必要的麻煩。
  • 所謂Debug日誌就是,沒事的時候,你看到它嫌它煩;出事的時候,你煩看不到它……
  • 排查問題時,還是大意了,沒有去看 Nginx 的日誌,因為通過源碼可以發現 INVALID_HEADER 預設情況下是會觸發 ERROR 日誌的:
    if (rc == NGX_OK) {
    
        r->request_length += r->header_in->pos - r->header_name_start;
    
        if (r->invalid_header && cscf->ignore_invalid_headers) {
    
            /* there was error while a header line parsing */
    
            ngx_log_error(NGX_LOG_INFO, c->log, 0,
                          "client sent invalid header line: \"%*s\"",
                          r->header_end - r->header_name_start,
                          r->header_name_start);
            continue;
        }
        // ……(太長只截取關鍵部分)
    }
    

0x05 事故影響

使P公司新業務系統上線時間延長了3小時,相關人員連夜跟老闆申請伺服器經費。(知道了,下次還是不批)。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 摘要:今天發現Mysql的主從資料庫沒有同步,瞬間整個人頭皮發麻。 本文分享自華為雲社區《糟了,生產環境數據竟然不一致,人麻了!》,作者:冰 河 。 今天發現Mysql的主從資料庫沒有同步 先上Master庫: mysql>show processlist; 查看下進程是否Sleep太多。發現很正常 ...
  • GreatSQL社區原創內容未經授權不得隨意使用,轉載請聯繫小編並註明來源。 GreatSQL是MySQL的國產分支版本,使用上與MySQL一致。 作者: 奧特曼愛小怪獸 文章來源:GreatSQL社區投稿 上一篇 MySQL8.0 優化器介紹(一)介紹了成本優化模型的三要素:表關聯順序,與每張表返 ...
  • 一、資料庫類型 關係資料庫管理系統(RDBMS) 非關係資料庫管理系統(NoSQL) 按照預先設置的組織機構,將數據存儲在物理介質上(即:硬碟上) 數據之間可以做無關聯操作 (例如: 多表查詢,嵌套查詢,外鍵等) 主流的RDBMS軟體:MySQL、MariaDB、Oracle、DB2、SQL Ser ...
  • TiDB作為NewSQL,其在對MySQL(SQL92協議)的相容上做了很多,MySQL作為當下使用較廣的事務型資料庫,在IT界尤其是互聯網間使用廣泛,那麼對於開發人員來說,1)兩個資料庫產品在SQL開發及調優的過程中,都有哪些差異?在系統遷移前需要提前做哪些準備? 2)TiDB的執行計劃如何查看,... ...
  • GreatSQL社區原創內容未經授權不得隨意使用,轉載請聯繫小編並註明來源。 GreatSQL是MySQL的國產分支版本,使用上與MySQL一致。 作者: Yejinrong/葉金榮 文章來源:GreatSQL社區投稿 啟用coredump 製造一個coredump場景 真實故障場景分析跟蹤 上一篇 ...
  • 背景 如今很多網站都引入截圖功能,可用於問題反饋、內容分享等實用需求,而前端截圖也不知不覺成為了首選。今天為大家推薦兩種前端截圖方式,雖然有些局限,但是也能應付大部分項目需求。 Canvas截圖:html2canvas SVG截圖:rasterizehtml 原理 首先來談下兩種前端截圖方式的原理, ...
  • 這裡給大家分享我在網上總結出來的一些知識,希望對大家有所幫助 隔行換色(%): window.onload = function() { var aLi = document.getElementsByTagName('li'); for(var i = 0; i < aLi.length; i++ ...
  • 在 Vue 3 中,watchEffect 是一個用於監聽響應式數據變化的 API。它可以在函數內部自動跟蹤數據的依賴,併在依賴變化時重新運行函數。 watchEffect 的作用以及各個參數的功能講解: watchEffect(effect: (onInvalidate: InvalidateCb ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...