可觀測性數據收集集大成者 Vector 介紹

-Advertisement-

如果企業提供 IT 線上服務，那麼可觀測性能力是必不可少的。“可觀測性” 這個詞近來也越發火爆，不懂 “可觀測性” 都不好意思出門了。但是可觀測性能力的構建卻著實不易，每個企業都會用到一堆技術棧來組裝建設。比如數據收集，可能來自某個 exporter，可能來自 telegraf，可能來自 OTEL， ...

如果企業提供 IT 線上服務，那麼可觀測性能力是必不可少的。“可觀測性” 這個詞近來也越發火爆，不懂 “可觀測性” 都不好意思出門了。但是可觀測性能力的構建卻著實不易，每個企業都會用到一堆技術棧來組裝建設。比如數據收集，可能來自某個 exporter，可能來自 telegraf，可能來自 OTEL，可能來自某個日誌文件，可能來自 statsd，收集到數據之後還需要做各種過濾、轉換、聚合、採樣等操作，煩不勝煩，今天我們就給大家介紹一款開源的數據收集+路由器工具：Vector，解除你的上述煩惱。

Vector 簡介

Vector 通常用作 logstash 的替代品，logstash 屬於 ELK 生態，使用廣泛，但是性能不太好。Vector 使用 Rust 編寫，聲稱比同類方案快 10 倍。Vector 來自 Datadog，如果你瞭解監控、可觀測性，大概率知道 Datadog，作為行業老大哥，其他小弟拍馬難及。Datadog 在 2021 年左右收購了 Vector，現在 Vector 已經開源，地址是：

主站：https://vector.dev/

倉庫：https://github.com/vectordotdev/vector

Vector 不止是收集、路由日誌數據，也可以路由指標數據，甚至可以從日誌中提取指標，功能強大。下麵是 Vector 的架構圖：

20230927150020

看起來和其他同類產品是類似的，核心就是 pipeline 的處理，有 Source 端做採集，有中間的 Transform 環節做數據加工處理，有 Sink 端做數據轉發。魔鬼在細節，Vector 有如下一些特點，讓它顯得卓爾不群：

超級快速可靠：Vector採用Rust構建，速度極快，記憶體效率高，旨在處理最苛刻的工作負載
端到端：Vector 致力於成為從 A 到 B 獲取可觀測性數據所需的唯一工具，並作為守護程式、邊車或聚合器進行部署
統一：Vector 支持日誌和指標，使您可以輕鬆收集和處理所有可觀測性數據
供應商中立：Vector 不偏向任何特定的供應商平臺，並以您的最佳利益為出發點，培育公平、開放的生態系統。免鎖定且面向未來
可編程轉換：Vector 的高度可配置轉換為您提供可編程運行時的全部功能。無限制地處理複雜的用例

Vector 安裝

Vector 的安裝比較簡單，一條命令即可搞定，其他安裝方式可以參考其官方文檔。

curl --proto '=https' --tlsv1.2 -sSf https://sh.vector.dev | bash

Vector 配置測試

Vector 的配置文件可以是 yaml、json、toml 格式，下麵是一個 toml 的例子，其作用是讀取 /var/log/system.log 日誌文件，然後把 syslog 格式的日誌轉換成 json 格式，最後輸出到標準輸出：

[sources.syslog_demo]
type = "file"
include = ["/var/log/system.log"]
data_dir = "/Users/ulric/works/vector-test"

[transforms.remap_syslog]
inputs = [ "syslog_demo"]
type = "remap"
source = '''
  structured = parse_syslog!(.message)
  . = merge(., structured)
'''

[sinks.emit_syslog]
inputs = ["remap_syslog"]
type = "console"
encoding.codec = "json"

首先，[sources.syslog_demo] 定義了一個 source，取名為 syslog_demo，這個 source 的類型是 file，表示從文件中讀取數據，文件路徑是 /var/log/system.log，data_dir 是存儲 checkpoint 數據不用關心，只要給一個可寫的目錄就行（Vector 自用）。然後定義了一個 transform，名字為 remap_syslog，指定這個 transform 的數據來源（即上游）是 syslog_demo，其類型是 remap，remap 是 Vector 里非常重要的一個 transform，可以做各類數據轉換，在 source 欄位里定義了一段代碼，其工作邏輯是：

來自 syslog_demo 這個 source 的日誌數據，日誌原文在 message 欄位里（除了日誌原文 message 欄位，Vector 還會對採集的數據附加 host、timestamp 等欄位），需要先解析成結構化的數據，通過 parse_syslog 這個函數做轉換
轉換之後，相當於把非結構化的日誌數據轉換成了結構化的數據，賦值給 structured 變數，然後通過 merge 函數把結構化的這個數據和原始就有的 host、timestamp 等欄位合併，然後把合併的結果繼續往 pipeline 後續環節傳遞

[sinks.emit_syslog] 定義了一個 sink，名字是 emit_syslog，通過 inputs 指明瞭上游數據來自 remap_syslog 這個 transform，通過 type 指明要把數據輸出給 console，即控制台，然後通過 encoding.codec 指定輸出的數據格式是 json。然後通過下麵的命令啟動 Vector：

vector -c vector.toml

然後，你就會看到一堆的日誌輸出（當然，前提是你的機器上有 system.log 這個文件，我是 macbook，所以用的這個文件測試的），樣例如下：

ulric@ulric-flashcat vector-test % vector -c vector.toml
...
{"appname":"syslogd","file":"/var/log/system.log","host":"ulric-flashcat.local","hostname":"ulric-flashcat","message":"ASL Sender Statistics","procid":332,"source_type":"file","timestamp":"2023-09-27T07:31:22Z"}

如上，就說明正常採集到了數據，而且轉換成了 json 並列印到了控制台，實驗成功。當然，列印到控制台只是個測試，Vector 可以把數據推給各類後端，典型的比如 ElasticSearch、S3、ClickHouse、Kafka 等。

Vector 部署模式

Vector 可以部署為兩個角色，既可以作為數據採集的 agent，也可以作為數據聚合、路由的 aggregator，架構示例如下：

20230927153626

當 Vector 作為 agent 的時候，又有兩種使用模式：Daemon 和 Sidecar。Daemon 模式旨在收集單個主機上的所有數據，這是數據收集的推薦方式，因為它最有效地利用主機資源。比如把 Vector 部署為 DaemonSet，收集這個機器上的所有容器中應用的日誌，容器中的應用的日誌推薦使用 stdout 方式列印，符合雲原生 12 條要素。架構圖如下：

20230927153955

當然，也可以使用 Sidecar 模式部署，這樣占用的資源更多（畢竟，每個 Pod 里都要塞一個 Vector 容器），但是更靈活，服務所有者可以隨意搞自己的日誌收集方案，不用依賴統一的日誌收集方案。架構圖如下：

20230927154214

Vector 總結

夜鶯社區里已經有很多小伙伴從 logstash 遷移到了 Vector，並普遍表示 Vector YYDS，如果你還沒聽過 Vector，趕緊去試試吧。其他的我也不啰嗦，請各位移步 Vector 官方文檔，本文最重要的價值就是讓你知道有這麼個好東西 :-)

擴展閱讀：

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

如何基於three.js(webgl)引擎架構，研發一套通過配置就能自動生成的3D機房系統

自動化3D機房、微模塊、3D機房、3D數據中心、科技感數據中心、三維機房、3d建築,3d消防,消防演習模擬,3d庫房,3d檔案室,3d密集架,webGL,threejs,3d機房,bim管理系統 ...
node圖片自動壓縮

圖片壓縮借用了images、imagemin等第三方庫，壓縮jpg、Png圖片 viteImagemin也可以實現，代碼量更加少，squoosh就沒用過了輸入需要壓縮的文件 //判斷是否已經有這個文件路徑 function setInputName() { return new Promise( ...
遞歸函數的介紹及使用案例

遞歸函數含義介紹：遞歸函數，實際上就是將一個自定義的函數在運行過程中反覆調用他自己，直到遇到結束條件就停止案例一：求階乘 int len(int n) { if(n == 1) { return 1;//如果階乘運算到最後一位(即1)，就結束迴圈 } int sum = n*len(n-1); ...
Python 集合（Sets）3

Python - 合併集合在 Python 中，有幾種方法可以合併兩個或多個集合。您可以使用union()方法，該方法返回一個包含兩個集合中所有項的新集合，或使用update()方法，將一個集合中的所有項插入另一個集合中：示例，union()方法返回一個包含兩個集合中所有項的新集合： set1 ...
千萬級數據併發解決方案（理論+實戰）高併發解決思路方案

在資料庫處理中，Join操作是最基本且最重要的操作之一，它能將不同的表連接起來，實現對數據集的更深層次分析 ...
Java學習筆記二

Java學習筆記二面向對象（Object Oriented）屬性（成員變數）跟隨對象放在堆裡面，局部變數（如 p1）放在棧裡面。只有成員變數的前面能添加許可權修飾符，且成員變數自帶預設值。在一個類中，一個方法可以調用這個類中的其餘方法（包括自身，即遞歸）以及成員變數，不能在方法中再定義方法。方 ...
深入解析Go非類型安全指針：技術全解與最佳實踐

本文全面深入地探討了Go非類型安全指針，特別是在Go語言環境下的應用。從基本概念、使用場景，到潛在風險和挑戰，文章提供了一系列具體的代碼示例和最佳實踐。目的是幫助讀者在保證代碼安全和效率的同時，更加精通非類型安全指針的使用。關註【TechLeadCloud】，分享互聯網架構、雲服務技術的全維度知識 ...
Spring Boot + Redis 延時雙刪功能，實戰來了！

一、業務場景在多線程併發情況下，假設有兩個資料庫修改請求，為保證資料庫與redis的數據一致性，修改請求的實現中需要修改資料庫後，級聯修改Redis中的數據。請求一：A修改資料庫數據 B修改Redis數據請求二：C修改資料庫數據 D修改Redis數據併發情況下就會存在A —> C —> D ...