Elastic Stack 開源的大數據解決方案

来源:https://www.cnblogs.com/SexyPhoenix/archive/2019/11/14/11851225.html
-Advertisement-
Play Games

目的 本文主要介紹的內容有以下三點: 一. Elastic Stack是什麼以及組成部分 二. Elastic Stack前景以及業務應用 三. Elasticsearch原理(索引方向) 四. Elasticsearch相對薄弱的地方 一、Elastic Stack是什麼以及組成部分 介紹Elas ...


目的


本文主要介紹的內容有以下三點:
一. Elastic Stack是什麼以及組成部分
二. Elastic Stack前景以及業務應用
三. Elasticsearch原理(索引方向)
四. Elasticsearch相對薄弱的地方

一、Elastic Stack是什麼以及組成部分


介紹Elastic Stack是什麼,其實只要一句話就可以,就是: 一套完整的大數據處理堆棧,從攝入、轉換到存儲分析、可視化

它是不同產品的集合,各司其職,形成完整的數據處理鏈,因此Elastic Stack也可以簡稱為BLEK。

Beats 輕量型數據採集器

Logstash 輸入、過濾器和輸出

Elasticsearch 查詢和分析

Kibana 可視化,可自由選擇如何呈現數據

1. Beats - 全品類採集器,搞定所有數據類型

Filebeat(日誌文件):對成百上千、甚至上萬的伺服器生成的日誌彙總,可搜索。

Metricbeat(指標): 收集系統和服務指標,CPU 使用率、記憶體、文件系統、磁碟 IO 和網路 IO 統計數據。

Packetbeat(網路數據):網路數據包分析器,瞭解應用程式動態。

Heartbeat(運行時間監控):通過主動探測來監測服務的可用性
......
Beats支持許許多多的beat,這裡列的都是比較的常用的beat,瞭解更多可以點擊鏈接:Beats 社區

2. Logstash - 伺服器端數據處理管道

介紹Logstash之前,我們先來看下Linux下常用的幾個命令

cat alldata.txt | awk ‘{print $1}’ | sort | uniq | tee filterdata.txt

只要接觸過Linux同學,應該都知道這幾個命名意思

cat alldata.txt #將alldata.txt的內容輸出到標準設備上
awk ‘{print $1}’ #對上面的內容做截取,只取每一行第一列數據
sort | uniq  #對截取後的內容,進行排序和唯一性操作
tee filterdata.txt #將上面的內容寫到filterdata.txt

上面的幾個簡單的命令就可以看出來,這是對數據進行了常規的處理,用名詞修飾的話就是:數據獲取/輸入數據清洗數據過濾數據寫入/輸出

而Logstash做的也是相同的事(看下圖)。

1

將系統的日誌文件、應用日誌文件、系統指標等數據,輸入到Input,再通過數據清洗以及過濾,輸入到存儲設備中,這裡當然是輸入到Elasticsearch

3. Elasticsearch - 分散式文檔存儲、RESTful風格的搜索和數據分析引擎

Elasticsearch主要也是最原始的功能就是搜索和分析功能。這裡就簡單說一下,下麵講原理的時候會著重講到Elasticsearch

搜索:全文搜索,完整的信息源轉化為電腦可以識別、處理的信息單元形成的數據集合 。

分析:相關度,搜索所有內容,找到所需的具體信息(詞頻或熱度等對結果排序)

4. Kibana- 可視化

可視化看下圖(來源官網)便知

可以對日誌分析、業務分析等做可視化

現在從總體上來瞭解下,在心中對Elastic Stack有個清楚的認知(下圖)。

二、Elastic Stack前景以及業務應用

1. DB-Engines 排名

2

Elasticsearch是Elastic Stack核心,由圖可以看出在搜索領域Elasticsearch暫時沒有對手。

2. ES社區

ES中文社區也是相當活躍的,會定期做一下分享,都是大公司的寶貴經驗,值得參考。

3. 2018年攜程的使用情況(讓我們看看能處理多大的數據)

集群數量是94個,最小的集群一般是3個節點。全部節點數量大概700+。

最大的一個集群是做日誌分析的,其中數據節點330個,最高峰一天產生1600億文檔,寫入值300w/s。

現在有2.5萬億文檔,大概是幾個PB的量

三、Elasticsearch(ES)原理

因為篇目有限,本篇只介紹ES的索引原理。

ES為什麼可以做全文搜索,主要就是用了倒排索引,先來看下麵的一張圖

看圖可以簡單的理解倒排索引就是:關鍵字 + 頁碼

對倒排索引有個基本的認識後,下麵來做個簡單的數據例子。

現在對Name做到排索引,記住:關鍵字 + ID(頁碼)。

對Age做到排索引。

對Intersets做到排索引。

現在搜索Age等於18的,通過倒排索引就可以快速得到1和3的id,再通過id就可以得到具體數據,看,這樣是不是快的狠。

如果是用Mysql等關係資料庫,現在有十多億數據(大數據嘛),就要一條一條的掃描下去找id,效率可想而知。而用倒排索引,找到所有的id就輕輕鬆鬆了。

在ES中,關鍵詞叫Term,頁碼叫Posting List。

但這樣就行了嗎? 如果Name有上億個Term,要找最後一個Term,效率豈不是還是很低?

再來看Name的倒排索引,你會發現,將Armani放在了第一個,Tyloo放在了第三個,可以看出來,對Term做了簡單的排序。雖然簡單,但很實用。這樣查找Term就可以用二分查找法來查找了,將複雜度由n變成了logn。

在ES中,這叫Term Dictionary。

到這裡,再來想想MySQL的b+tree, 你有沒有發現原理是差不多的,那為什麼說ES搜索比MySQL快很多,究竟快在哪裡? 接下來再看。

有一種數據結構叫Trie樹,又稱首碼樹或字典樹,是一種有序樹。這種數據結構的好處就是可以壓縮首碼和提高查詢數據。

現在有這麼一組Term: apps, apple, apply, appear, back, backup, base, bear,用Trie樹表示如下圖。

11

通過線路路徑字元連接就可以得到完成的Term,並且合用了首碼,比如apps, apple, apply, appear合用了app路徑,節省了大量空間。

這個時候再來找base單詞,立即就可以排除了a字元開頭的單詞,比Term Dictionary快了不知多少。

在ES中,這叫Term Index

現在我們再從整體看下ES的索引

先通過Trie樹快速定位block(相當於頁碼), 再到Term Dictionary 做二分查找,得到Posting List。

索引優化

ES是為了大數據而生的,這意味著ES要處理大量的數據,它的Term數據量也是不可想象的。比如一篇文章,要做全文索引,就會對全篇的內容做分詞,會產生大量的Term,而ES查詢的時候,這些Term肯定要放在記憶體裡面的。

雖然Trie樹對首碼做了壓縮,但在大量Term面前還是不夠,會占用大量的記憶體使用,於是就有ES對Trie樹進一步演化。

FST(Finite State Transducer )確定無環有限狀態轉移器 (看下圖)

可以看appear、bear 對共同的尾碼做了壓縮。

Posting List磁碟壓縮

假設有一億的用戶數據,現在對性別做搜索,而性別無非兩種,可能"男"就有五千萬之多,按int4個位元組存儲,就要消耗50M左右的磁碟空間,而這僅僅是其中一個Term。

那麼面對成千上萬的Term,ES究竟是怎麼存儲的呢?接下來,就來看看ES的壓縮方法。

Frame Of Reference (FOR) 增量編碼壓縮,將大數變小數,按位元組存儲

只要能把握“增量,大數變小數,按位元組存儲”這幾個關鍵詞,這個演算法就很好理解,現在來具體看看。

現在有一組Posting List:[60, 150, 300,310, 315, 340], 按正常的int型存儲,size = 6 * 4(24)個位元組。

  1. 按增量存儲:60 + 90(150)+ 150(300) + 10(310) + 5(315)+ 25(340),也就是[60, 90, 150, 10, 5, 25],這樣就將大數變成了小數。

  2. 切分成不同的block:[60, 90, 150]、[10, 5, 25],為什麼要切分,下麵講。

  3. 按位元組存儲:對於[60, 90, 150]這組block,究竟怎麼按位元組存儲,其實很簡單,就是找其中最大的一個值,看X個比特能表示這個最大的數,那麼剩下的數也用X個比特表示(切分,可以儘可能的壓縮空間)。

[60, 90, 150]最大數150 < 2^8 = 256,也就是這組每個數都用8個比特表示,也就是 3*8 = 24個比特,再除以8,也就是3個位元組存在,再加上一個8的標識位(說明每個數是8個比特存儲),占用一個位元組,一共4個位元組。

[10, 5, 25]最大數25 < 2^5 = 32,每個數用5個比特表示,3*5=15比特,除以8,大約2個位元組,加上5的標識位,一共3個位元組。

那麼總體size = 4 + 3(7)個位元組,相當於24個位元組,大大壓縮了空間。

再看下圖表示

14

Posting List記憶體壓縮

同學們應該都知道越複雜的演算法消耗的CPU性能就越大,比如常見的https,第一次交互會用非對稱密碼來驗證,驗證通過後就轉變成了對稱密碼驗證,FOR同樣如此,那麼ES是用什麼演算法壓縮記憶體中的Posting List呢?

Roaring Bitmaps 壓縮點陣圖索引

Roaring Bitmaps 涉及到兩種數據結構 short[] 、bitmap。

short好理解就是2個位元組的整型。

bitmap就是用比特表示數據,看下麵的例子。

Posting List:[1, 2, 4, 7, 10] -> [1, 1, 0, 1, 0, 0, 1,0, 0, 1],取最大的值10,那麼就用10個比特表示這組Posting List,第1, 2, 4, 7, 10位存在,就將相對應的“位”置為1,其他的為0。

但這種bitmap數據結構有缺陷,看這組Posting List: [1, 3, 100000000] -> [1, 0, 1, 0, 0, 0, …, 0, 0, 1 ],最大數是1億,就要1億的比特表示,這麼算下來,反而消耗了更多的記憶體。

那如何解決這個問題,其實也很簡單,跟上面一樣,將大數變成小數

看下圖:

15

第一步:將每個數除以65536,得到(商,餘數)。

第二步:按照商,分成不同的block,也就是相同的商,放在同一個block裡面,餘數就是這個值在這個block裡面的位置(永遠不會超過65536,餘數嘛)。

第三步:判斷底層block用什麼數據結構存儲數據,如果block裡面的餘數的個數超過4096個,就用short存儲,反之bitmap。

上面那個圖是官網的圖,看下我畫的圖,可能更好理解些。

到這裡,ES的索引原理就講完了,希望大家都能理解。

四、Elasticsearch(ES)相對薄弱的地方

1. 多表關聯

其實ES有一個很重要的特性這裡沒有介紹到,也就是分散式,每一個節點的數據和,才是整體數據。

這也導致了多表關聯問題,雖然ES裡面也提供了Nested& Join 方法解決這個問題,但這裡還是不建議用。

那這個問題在實際應用中應該如何解決? 其實也很簡單,裝換思路,ES無法解決,就到其他層解決,比如:應用層,用面向對象的架構,拆分查詢。

2. 深度分頁

分散式架構下,取數據便不是那麼簡單,比如取前1000條數據,如果是10個節點,那麼每個節點都要取1000條,10個節點就是10000條,排序後,返回前1000條,如果是深度分頁就會變的相當的慢。

ES提供的是Scroll + Scroll_after,但這個採取的是緩存的方式,取出10000條後,緩存在記憶體里,再來翻頁的時候,直接從緩存中取,這就代表著存在實時性問題。

來看看百度是怎麼解決這個問題的。

17

一樣在應用層解決,翻頁到一定的深度後,禁止翻頁。

3. 更新應用

頻繁更新的應用,用ES會有瓶頸,比如一些游戲應用,要不斷的更新數據,用ES不是太適合,這個看大家自己的應用情況。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一.MySQL日誌簡介 二.錯誤日誌 作用: 記錄mysql資料庫的一般狀態信息及報錯信息,是我們對於資料庫常規報錯處理的常用日誌。 預設位置: $MYSQL_HOME/data/ 開啟方式: (MySQL安裝完後預設開啟) 三.一般查詢日誌 作用: 記錄mysql所有執行成功的SQL語句信息,可以 ...
  • 什麼是主從複製 Redis的主從複製機制是指可以讓從伺服器(slave)能精確複製主伺服器(master)的數據,如下圖所示: 或者 主從複製的方式和工作原理 工作方式: Redis主從複製主要有兩種模式:完整重同步(full resynchronization)和部分重同步(partial res ...
  • 陳九禮常用JDBC資料庫驅動包和類名MySQL資料庫: 1)驅動包:https://mvnrepository.com/artifact/mysql/mysql-connector-java(下載路徑) 2)驅動類名:com.mysql.jdbc.Driver 3)JDBC的URL:jdbc:mys ...
  • 學習MYsql是的方向是很重要的,為此,我自發做了思維導圖供大家學習,此部分僅僅是基礎部分,擴展以後我會補充。 ...
  • 1. 在<MYSQL>的根目錄下新建一個my.ini寫入以下內容 2.初始化資料庫 3.直接運行 4.設密碼 5.用Navicate進入 6.設成Windows服務 參考: MySQL57安裝部署(ZIP壓縮包版本)https://blog.csdn.net/To_Coding/article/de ...
  • 緩存雪崩: 比如給緩存中的key設置了統一的過期時間,而在過期時間點,有大量的請求進來,這個時候redis中沒有用戶請求的資源,所以所有的請求會全部擁到資料庫,如果資料庫有報警監測的話,可能會報一下警,然後資料庫就掛掉了。如果這時候把數據重新起來,redis上還是沒有緩存這些內容,資料庫還是會被再一 ...
  • 1 2 3 import java.awt.Color; 4 import java.io.FileOutputStream; 5 import java.sql.Connection; 6 import java.sql.DriverManager; 7 import java.sql.Resul ...
  • 在其他RDBMS中,可以將查看某個存儲過程(PROCEDURE)定義的許可權給某個用戶,例如在SQL Server中,可以單獨將查看ProcedureName定義的許可權授予UserA GRANT VIEW DEFINITION ON ProcedureName TO UserA; --用具體的存儲過程... ...
一周排行
    -Advertisement-
    Play Games
  • Dapr Outbox 是1.12中的功能。 本文只介紹Dapr Outbox 執行流程,Dapr Outbox基本用法請閱讀官方文檔 。本文中appID=order-processor,topic=orders 本文前提知識:熟悉Dapr狀態管理、Dapr發佈訂閱和Outbox 模式。 Outbo ...
  • 引言 在前幾章我們深度講解了單元測試和集成測試的基礎知識,這一章我們來講解一下代碼覆蓋率,代碼覆蓋率是單元測試運行的度量值,覆蓋率通常以百分比表示,用於衡量代碼被測試覆蓋的程度,幫助開發人員評估測試用例的質量和代碼的健壯性。常見的覆蓋率包括語句覆蓋率(Line Coverage)、分支覆蓋率(Bra ...
  • 前言 本文介紹瞭如何使用S7.NET庫實現對西門子PLC DB塊數據的讀寫,記錄了使用電腦模擬,模擬PLC,自至完成測試的詳細流程,並重點介紹了在這個過程中的易錯點,供參考。 用到的軟體: 1.Windows環境下鏈路層網路訪問的行業標準工具(WinPcap_4_1_3.exe)下載鏈接:http ...
  • 從依賴倒置原則(Dependency Inversion Principle, DIP)到控制反轉(Inversion of Control, IoC)再到依賴註入(Dependency Injection, DI)的演進過程,我們可以理解為一種逐步抽象和解耦的設計思想。這種思想在C#等面向對象的編 ...
  • 關於Python中的私有屬性和私有方法 Python對於類的成員沒有嚴格的訪問控制限制,這與其他面相對對象語言有區別。關於私有屬性和私有方法,有如下要點: 1、通常我們約定,兩個下劃線開頭的屬性是私有的(private)。其他為公共的(public); 2、類內部可以訪問私有屬性(方法); 3、類外 ...
  • C++ 訪問說明符 訪問說明符是 C++ 中控制類成員(屬性和方法)可訪問性的關鍵字。它們用於封裝類數據並保護其免受意外修改或濫用。 三種訪問說明符: public:允許從類外部的任何地方訪問成員。 private:僅允許在類內部訪問成員。 protected:允許在類內部及其派生類中訪問成員。 示 ...
  • 寫這個隨筆說一下C++的static_cast和dynamic_cast用在子類與父類的指針轉換時的一些事宜。首先,【static_cast,dynamic_cast】【父類指針,子類指針】,兩兩一組,共有4種組合:用 static_cast 父類轉子類、用 static_cast 子類轉父類、使用 ...
  • /******************************************************************************************************** * * * 設計雙向鏈表的介面 * * * * Copyright (c) 2023-2 ...
  • 相信接觸過spring做開發的小伙伴們一定使用過@ComponentScan註解 @ComponentScan("com.wangm.lifecycle") public class AppConfig { } @ComponentScan指定basePackage,將包下的類按照一定規則註冊成Be ...
  • 操作系統 :CentOS 7.6_x64 opensips版本: 2.4.9 python版本:2.7.5 python作為腳本語言,使用起來很方便,查了下opensips的文檔,支持使用python腳本寫邏輯代碼。今天整理下CentOS7環境下opensips2.4.9的python模塊筆記及使用 ...