Node 框架接入 ELK 實踐總結_ZenDei技術網路在線

歡迎大家前往 "騰訊雲+社區" ，獲取更多騰訊海量技術實踐乾貨哦~ 本文由 "J2X" 發表於 "雲+社區專欄" 我們都有過上機器查日誌的經歷，當集群數量增多的時候，這種原始的操作帶來的低效率不僅給我們定位現網問題帶來極大的挑戰，同時，我們也無法對我們服務框架的各項指標進行有效的量化診斷，更無從談有 ...

歡迎大家前往騰訊雲+社區，獲取更多騰訊海量技術實踐乾貨哦~

本文由J2X發表於雲+社區專欄

我們都有過上機器查日誌的經歷，當集群數量增多的時候，這種原始的操作帶來的低效率不僅給我們定位現網問題帶來極大的挑戰，同時，我們也無法對我們服務框架的各項指標進行有效的量化診斷，更無從談有針對性的優化和改進。這個時候，構建具備信息查找，服務診斷，數據分析等功能的實時日誌監控系統尤為重要。

ELK （ELK Stack: ElasticSearch, LogStash, Kibana, Beats）是一套成熟的日誌解決方案，其開源及高性能在各大公司廣泛使用。而我們業務所使用的服務框架，如何接入 ELK 系統呢？

業務背景

我們的業務框架背景：

業務框架是基於 NodeJs 的 WebServer
服務使用 winston 日誌模塊將日誌本地化
服務產生的日誌存儲在各自機器的磁碟上
服務部署在不同地域多台機器

接入步驟

我們將整個框架接入 ELK 簡單歸納為下麵幾個步驟：

日誌結構設計：由傳統的純文本日誌改成結構化對象並輸出為 JSON.
日誌採集：在框架請求生命周期的一些關鍵節點輸出日誌
ES 索引模版定義：建立 JSON 到 ES 實際存儲的映射

一、日誌結構設計

傳統的，我們在做日誌輸出的時候，是直接輸出日誌的等級（level）和日誌的內容字元串（message）。然而我們不僅關註什麼時間，發生了什麼，可能還需要關註類似的日誌發生了多少次，日誌的細節與上下文，以及關聯的日誌。因此我們不只是簡單地將我們的日誌結構化一下為對象，還要提取出日誌關鍵的欄位。

1. 將日誌抽象為事件

我們將每一條日誌的發生都抽像為一個事件。事件包含：

事件元欄位

事件發生時間：datetime, timestamp
事件等級：level，例如: ERROR, INFO, WARNING, DEBUG
事件名稱: event, 例如：client-request
事件發生的相對時間（單位：納秒）：reqLife, 此欄位為事件相對請求開始發生的時間（間隔）
事件發生的位置: line，代碼位置; server, 伺服器的位置

請求元欄位

請求唯一ID: reqId, 此欄位貫穿整個請求鏈路上發生的所有事件
請求用戶ID: reqUid, 此欄位為用戶標識，可以跟蹤用戶的訪問或請求鏈路

數據欄位

不同類型的事件，需要輸出的細節不盡相同，我們將這些細節（非元欄位）統一放到d -- data，之中。使我們的事件結構更加清晰，同時，也能避免數據欄位對元欄位造成污染。

e.g. 如 client-init事件，該事件會在每次伺服器接收到用戶請求時列印，我們將用戶的 ip, url等事件獨有的統一歸為數據欄位放到 d 對象中

舉個完整的例子

{
    "datetime":"2018-11-07 21:38:09.271",
    "timestamp":1541597889271,
    "level":"INFO",
    "event":"client-init",
    "reqId":"rJtT5we6Q",
    "reqLife":5874,
    "reqUid": "999793fc03eda86",
    "d":{
        "url":"/",
        "ip":"9.9.9.9",
        "httpVersion":"1.1",
        "method":"GET",
        "userAgent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36",
        "headers":"*"
    },
    "browser":"{"name":"Chrome","version":"70.0.3538.77","major":"70"}",
    "engine":"{"version":"537.36","name":"WebKit"}",
    "os":"{"name":"Mac OS","version":"10.14.0"}",
    "content":"(Empty)",
    "line":"middlewares/foo.js:14",
    "server":"127.0.0.1"
}

一些欄位，如：browser, os, engine為什麼在外層有時候我們希望日誌儘量扁平（最大深度為2），以避免 ES 不必要的索引帶來的性能損耗。在實際輸出的時候，我們會將深度大於1的值輸出為字元串。而有時候一些對象欄位是我們關註的，所以我們將這些特殊欄位放在外層，以保證輸出深度不大於2的原則。

一般的，我們在列印輸出日誌的時候，只須關註事件名稱及數據欄位即可。其他，我們可以在列印日誌的方法中，通過訪問上下文統一獲取，計算，輸出。

2. 日誌改造輸出

前面我們提到瞭如何定義一個日誌事件，那麼，我們如何基於已有日誌方案做升級，同時，相容舊代碼的日誌調用方式。

升級關鍵節點的日誌

// 改造前
logger.info('client-init => ' + JSON.stringfiy({
    url,
    ip,
    browser,
    //...
}));

// 改造後
logger.info({
    event: 'client-init',
    url,
    ip,
    browser,
    //...
});

相容舊的日誌調用方式

logger.debug('checkLogin');

因為 winston 的日誌方法本身就支持 string 或者 object 的傳入方式, 所以對於舊的字元串傳入寫法，formatter 接收到的實際上是{ level: 'debug', message: 'checkLogin' }。formatter 是 winston 的日誌輸出前調整日誌格式的一道工序，這一點使我們在日誌輸出前有機會將這類調用方式輸出的日誌，轉為一個純輸出事件 -- 我們稱它們為raw-log事件，而不需要修改調用方式。

改造日誌輸出格式

前面提到 winston 輸出日誌前，會經過我們預定義的formatter，因此除了相容邏輯的處理外，我們可以將一些公共邏輯統一放在這裡處理。而調用上，我們只關註欄位本身即可。

元欄位提取及處理
欄位長度控制
相容邏輯處理

如何提取元欄位，這裡涉及上下文的創建與使用，這裡簡單介紹一下 domain 的創建與使用。

//--- middlewares/http-context.js
const domain = require('domain');
const shortid = require('shortid');

module.exports = (req, res, next) => {
    const d = domain.create();
    d.id =  shortid.generate(); // reqId;
    d.req = req;
    
    //...

    res.on('finish', () => process.nextTick(() => {
        d.id = null;
        d.req = null;
        d.exit();
    });

    d.run(() => next());
}

//--- app.js
app.use(require('./middlewares/http-context.js'));

//--- formatter.js
if (process.domain) {
    reqId = process.domain.id;
}

這樣，我們就可以將 reqId 輸出到一次請求中所有的事件, 從而達到關聯事件的目的。

二、日誌採集

現在，我們知道怎麼輸出一個事件了，那麼下一步，我們該考慮兩個問題：

我們要在哪裡輸出事件？
事件要輸出什麼細節？

換句話說，整個請求鏈路中，哪些節點是我們關註的，出現問題，可以通過哪個節點的信息快速定位到問題？除此之外，我們還可以通過哪些節點的數據做統計分析？

結合一般常見的請求鏈路（用戶請求，服務側接收請求，服務請求下游伺服器/資料庫（*多次），數據聚合渲染，服務響應），如下方的流程圖

流程圖

那麼，我們可以這樣定義我們的事件：

用戶請求

client-init: 列印於框架接收到請求（未解析），包括：請求地址，請求頭，Http 版本和方法，用戶 IP 和瀏覽器
client-request: 列印於框架接收到請求（已解析），包括：請求地址，請求頭，Cookie, 請求包體
client-response: 列印於框架返回請求，包括：請求地址，響應碼，響應頭，響應包體

下游依賴

http-start: 列印於請求下游起始：請求地址，請求包體，模塊別名（方便基於名字聚合而且功能變數名稱）
http-success: 列印於請求返回 200：請求地址，請求包體，響應包體(code & msg & data)，耗時
http-error: 列印於請求返回非 200，亦即連接伺服器失敗：請求地址，請求包體，響應包體(code & message & stack)，耗時。
http-timeout: 列印於請求連接超時：請求地址，請求包體，響應包體(code & msg & stack)，耗時。

欄位這麼多，該怎麼選擇？一言以蔽之，事件輸出的欄位原則就是：輸出你關註的，方便檢索的，方便後期聚合的欄位。

一些建議

請求下游的請求體和返回體有固定格式， e.g. 輸入：{ action: 'getUserInfo', payload: {} } 輸出: { code: 0, msg: '', data: {}} 我們可以在事件輸出 action，code 等，以便後期通過 action 檢索某模塊具體某個介面的各項指標和聚合。

一些原則

保證輸出欄位類型一致 由於所有事件都存儲在同一個 ES 索引，因此，相同欄位不管是相同事件還是不同事件，都應該保持一致，例如：code不應該既是數字，又是字元串，這樣可能會產生欄位衝突，導致某些記錄（document）無法被衝突欄位檢索到。
ES 存儲類型為 keyword, 不應該超過 ES mapping 設定的 ignore_above 中指定的位元組數（預設4096個位元組）。否則同樣可能會產生無法被檢索的情況

三、ES 索引模版定義

這裡引入 ES 的兩個概念，映射(Mapping)與模版(Template)。

首先，ES 基本的存儲類型大概枚舉下，有以下幾種

String: keyword & text
Numeric: long, integer, double
Date: date
Boolean: boolean

一般的，我們不需要顯示指定每個事件欄位的在ES對應的存儲類型，ES 會自動根據欄位第一次出現的document中的值來決定這個欄位在這個索引中的存儲類型。但有時候，我們需要顯示指定某些欄位的存儲類型，這個時候我們需要定義這個索引的 Mapping, 來告訴 ES 這此欄位如何存儲以及如何索引。

e.g.

還記得事件元欄位中有一個欄位為 timestamp ？實際上，我們輸出的時候，timestamp 的值是一個數字，它表示跟距離 1970/01/01 00:00:00 的毫秒數，而我們期望它在ES的存儲類型為 date 類型方便後期的檢索和可視化, 那麼我們創建索引的時候，指定我們的Mapping。

PUT my_logs
{
  "mappings": {
    "_doc": { 
      "properties": { 
        "title":    {
            "type": "date",
            "format": "epoch_millis"
         }, 
      }
    }
  }
}

但一般的，我們可能會按日期自動生成我們的日誌索引，假定我們的索引名稱格式為 my_logs_yyyyMMdd （e.g. my_logs_20181030）。那麼我們需要定義一個模板（Template），這個模板會在（匹配的）索引創建時自動應用預設好的 Mapping。

PUT _template/my_logs_template
{
  "index_patterns": "my_logs*",
  "mappings": {
    "_doc": { 
      "properties": { 
        "title":    {
            "type": "date",
            "format": "epoch_millis"
         }, 
      }
    }
  }
}

提示：將所有日期產生的日誌都存在一張索引中，不僅帶來不必要的性能開銷，也不利於定期刪除比較久遠的日誌。

小結

至此，日誌改造及接入的準備工作都已經完成了，我們只須在機器上安裝 FileBeat -- 一個輕量級的文件日誌Agent, 它負責將日誌文件中的日誌傳輸到 ELK。接下來，我們便可使用 Kibana 快速的檢索我們的日誌。

相關閱讀
【每日課程推薦】機器學習實戰！快速入門線上廣告業務及CTR相應知識

此文已由作者授權騰訊雲+社區發佈，更多原文請點擊

搜索關註公眾號「雲加社區」，第一時間獲取技術乾貨，關註後回覆1024 送你一份技術課程大禮包！

海量技術實踐經驗，盡在雲加社區！