本文分享自華為雲社區《一文帶你全面瞭解openGemini》,作者: 華為雲社區精選。 7月19日,openGemini社區聯合華為雲DTT(技術公開直播課欄目)共同舉辦了一期主題為《openGemini時序資料庫應用場景與技術實踐》的直播活動,華為雲開源DTSE技術佈道師 & openGemini ...
本文分享自華為雲社區《一文帶你全面瞭解openGemini》,作者: 華為雲社區精選。
7月19日,openGemini社區聯合華為雲DTT(技術公開直播課欄目)共同舉辦了一期主題為《openGemini時序資料庫應用場景與技術實踐》的直播活動,華為雲開源DTSE技術佈道師 & openGemini社區發起人向宇,與廣大開發者開展了一次線上的直播交流,就openGemini的特點、應用場景、開源目標和價值、差異化競爭力、核心能力、技術生態、運維管理、社區路標等8個方面進行了全面細緻的介紹。在臨近結尾時,向宇表示openGemini是一個開放、包容、合作的開源社區,歡迎更多開發者和伙伴加入,共同推動技術創新。
openGemini的三大特點
openGemini是一款存儲和分析並重的時序資料庫,具有三大顯著特點:
- 開源
openGemini採用的開源License是Apache 2.0,對商業友好,伙伴和開發者可以基於openGemini發佈自己的商業版本,也可以基於openGemini搭建運維監控系統,還可以基於openGemini開發監控類產品和服務、構建車聯網、物聯網以及工業物聯網平臺等。
- 高性能
openGemini從孵化到開源,長期背靠華為雲SRE運維監控業務,在產品打磨的過程中造就了openGemini卓越的讀寫性能和高效的數據分析能力。
- 分散式
單機版資料庫始終受計算資源限制,無法獲得更高的吞吐量和性能。因此,openGemini從誕生一刻起就設計了分散式集群架構,具備良好的可擴展性和靈活性。
專註海量遙測數據存儲分析場景
近年來,隨著雲計算、AI、5G、物聯網等眾多新技術的發展和普及,數字化轉型如火如荼,在車聯網、製造業、物流、電力、物聯網、工業互聯網、運維監控等領域的數據量出現猛增,例如大型車企一天採集的車輛數據就在PB級;TOP級雲廠商每天採集的運維數據超過數十TB。
面對如此海量的遙測數據,openGemini通過對上述場景中數據和業務特點深入瞭解,提出針對性的設計和技術優化方案,實現了集群高併發、高擴展、低時延、低成本的時序資料庫系統。
目前,openGemini已正式在華為雲工業物聯平臺中商業化落地,同時也在支撐整個華為雲的運維監控業務,在全網部署有約25套集群,最大集群規模為70節點,日均處理20TB數據,寫TPS 4000萬條/秒,讀QPS 5萬/秒。
在openGemini開源的數個月里,和社區取得聯繫並正式接入業務進行測試和適配的已知企業有46家。後起之星火,大有燎原的態勢。
6大能力凸顯openGemini差異化競爭力
性能優勢:在openGemini差異化競爭力中,高性能是最重要的一項。openGemini 相比開源 InfluxDB,簡單查詢場景提升 2 倍多,中等查詢場景提升 5 倍多,複雜查詢場景下,openGemini 依然可以快速響應,然而 InfluxDB 則出現 OOM 無法工作。此外,openGemini新研發的高基數引擎,支持時間線無上限,進一步擴大了應用範圍。需要瞭解與其他同類產品的性能對比,可以在官網找到聯繫方式進行索要。
除此之外,openGemini在數據存儲和數據分析方面推出一系列實用功能,以此構建更多差異化競爭力,主要功能如下:
流式聚合:流式聚合是一種前置聚合方式,一邊寫數據、一邊對數據進行降採樣,其目的是解決傳統降採樣方法從磁碟讀取大量歷史數據進行計算,造成I/O放大嚴重的問題。
多級降採樣:對於存量的歷史數據,傳統降採樣方式會保留歷史數據明細。在某些場景下,歷史數據明細並不重要,只需保留數據特征即可,多級降採樣功能可以實現對歷史數據明細的特征提取,並原地替換歷史數據明細,可進一步降低50%的存儲成本。
日誌檢索:日誌數據是一種特殊的時序數據,多數時序資料庫支持日誌存儲,但僅僅是存儲日誌數據時還遠遠不夠,日誌檢索和分析才是存儲日誌的最終目的。主流針對日誌的處理多使用ELK技術棧,但面對海量日誌時,ES也變得很吃力。openGemini採用動態分詞方法,在內核實現了全文索引,且具有記憶體資源占用少,檢索效率高的優點,歡迎大家試用和反饋。
異常檢測和預測:openGemini針對時序數據的最終應用開發了基於AI的數據分析框架,可實現對時序數據的異常檢測和預測,可檢測13種常見的異常場景,具有檢測速度快、準確性高、流批一體的優點,讓數據就近處理,提高數據分析效率。
高基數引擎:高基數會帶來索引膨脹,從而引起記憶體資源消耗過高,讀寫性能降低,長期以來一直困擾著時序資料庫的發展。openGemini從AP系統中尋找到解決辦法,研發了全新的高基數引擎HSCE,可支持時間線無上限。目前核心能力已具備,正在完善高基數引擎下的各種聚合方法(計劃9月可完成)。
核心能力加持,場景應用更寬廣
除上述差異化能力之外,openGemini的核心能力還包括完全相容InfluxDB 1.x APIs、運算元(函數)和數據行協議,可作為普羅和openTelemetry的後端存儲,支持數據可靠性(計劃9月份推出)、物化視圖、數據分區分片(支持指定分區鍵)、數據保留策略等。
強大組件提升運維管理能力
為提升openGemini的運維效率,社區開發了ts-monitor組件,專門採集節點和內核指標,可搭配Grafana實現對openGemini運行狀態的全面監控。例如CPU和記憶體利用率、寫入帶寬、寫時延、寫併發、QPS等指標可以通過可視化界面一目瞭然。
擁抱生態,助力應用開發
由於openGemini對InfluxDB的相容,因此應用於InfluxDB的數據接入工具、SDK、數據洞察工具、大數據分析工具等都能直接應用在openGemini之上。
操作系統方面,openGemini目前已經對主流Linux系統、X86和ARM64的CPU架構支持,下個版本上可支持MAC和Windows
雲原生方面,openGemini支持Docker、K8s、KubeEdge等平臺的部署,為方便在K8s部署,社區創建了openGemini-operator項目。
數據遷移方面,提供了InfluxDB向openGemini的數據遷移工具,ES遷移數據到openGemini的工具正在開發中,預計8月份可提供。
管理工具方面,數據導出已支持,備份恢復和GUI管理工具正在社區開發中,9月份可以和大家見面。
總結起來,openGemini支持多種主流開發語言和操作系統平臺、與InfluxDB的第三方工具無縫銜接、支持多形態的部署及應用。
與我們一起暢想未來
在今年召開的多個國內外行業峰會上,openGemini進行了主題技術分享和展覽展示,充分感受到了大家對openGemini的關註,也與很多的開發者進行了技術和業務交流,非常感謝華為雲DTT技術公開課欄目,藉助這次機會得以在廣大開發者面前全面而細緻的介紹了openGemini的方方面面,希望大家自此對openGemini有更深的瞭解。
感謝參與互動和聆聽的新老朋友,祝事業蒸蒸日上,百尺竿頭,祝同學學業有成,前程似錦!
openGemini將持續專註於海量遙測數據的存儲與分析,為業界提供有效應對海量數據存儲和分析的開源解決方案。與此同時,希望成長為一流時序資料庫技術社區,培養更多優秀的資料庫技術人才,促進資料庫行業蓬勃發展!
最後,openGemini是一個年輕的技術開源社區,空間廣闊,充滿了無限可能,社區屬於所有開發者,希望有更多的企業和開發者共同參與進來,營造良好的開源社區文化,讓開源惠及千萬家,一起共建、共治、共用未來!