教你如何解決T+0的問題

来源:https://www.cnblogs.com/huaweiyun/archive/2022/10/26/16828756.html
-Advertisement-
Play Games

摘要:T+0查詢是指實時數據查詢,數據查詢統計時將涉及到最新產生的數據。 本文分享自華為雲社區《大數據解決方案:解決T+0問題》,作者: 小虛竹 。 T+0問題 T+0查詢是指實時數據查詢,數據查詢統計時將涉及到最新產生的數據。在數據量不大時,T+0很容易完成,直接基於生產資料庫查詢就可以了。但是, ...


摘要:T+0查詢是指實時數據查詢,數據查詢統計時將涉及到最新產生的數據。

本文分享自華為雲社區《大數據解決方案:解決T+0問題》,作者: 小虛竹 。

T+0問題

T+0查詢是指實時數據查詢,數據查詢統計時將涉及到最新產生的數據。在數據量不大時,T+0很容易完成,直接基於生產資料庫查詢就可以了。但是,當數據量積累到一定程度時,在生產庫中進行大數據量的查詢會消耗過多的資料庫資源,嚴重時會影響交易業務,這就不能接受了,畢竟生產交易是更關鍵的任務。所以,我們常常會把大量用於查詢分析的歷史數據從生產庫中分離出去,使用單獨的資料庫存儲和查詢,以保證查詢統計不會影響生產業務,這就是常說的冷熱數據分離。

數據分離後就會產生T+0問題。數據拆分到兩個資料庫中,要查詢全量數據就涉及跨庫查詢。而且,我們知道,用於交易的生產庫大多使用能夠保證事務一致性的RDB,而分離出來的冷數據(量大且不再修改)則會更多使用專門的分析型資料庫或數據平臺存儲,即使是關係資料庫也很可能與原來的生產庫類型不同,這就不僅涉及跨庫,還需要跨異構庫(源)查詢。遺憾的是,當前實現跨庫查詢的技術都存在這樣那樣的問題。

資料庫自身的跨庫查詢功能(如Oracle的DBLink、MySQL的FEDERATED、MSSQL的Linked Server等)通常是將遠程資料庫的數據拉到本地,再在本地完成包括過濾在內的大部分計算,整個過程十分低效。不僅如此,這種方式還存在數據傳輸不穩定、不支持大對象操作、可擴展性低等很多不足。

除了資料庫自身的跨庫查詢能力,使用高級語言硬編碼也可以完成跨庫查詢,畢竟沒有什麼問題不是硬編碼解決不了的。這種方式雖然靈活,但使用難度卻很大,尤其對於當前大部分應用的開發語言Java來說,缺少足夠的結構化數據計算類庫使得完成跨庫查詢後的計算很難完成,通常只能做簡單的列表式查詢,而涉及到統計彙總類的運算就會異常麻煩。

事實上,要解決分庫後的T+0查詢問題也並非難事,只要有具備這樣一些能力的計算引擎就可以實現:能夠對接多種數據源;擁有不依賴資料庫的完善計算能力以完成多庫數據歸集後的數據計算工作;還可以利用資料庫(源)的能力充分發揮資料庫的效能;提供簡單的數據計算介面;性能相對理想等。

引入SPL

可以藉助開源SPL可以實現這些目標。SPL是一款開源數據計算引擎,提供了大量結構化數據計算函數並擁有完備計算能力,支持多數據源混合計算,可以同時連接存儲熱數據的業務庫和存儲冷數據的歷史庫完成全量數據T+0查詢。

由於具備獨立且完善的計算能力,SPL可以分別從不同的資料庫取數計算,因此可以很好適應異構資料庫的情況,還可以根據資料庫的資源狀況決定計算是在資料庫還是SPL中實施,非常靈活。在計算實現上,SPL的敏捷語法與過程計算可以大大簡化T+0查詢中的複雜計算,提升開發效率,SPL解釋執行支持熱部署。更進一步,依托SPL的強計算能力還可以完成冷熱數據分離時的ETL任務。

SPL還提供了自有的高性能二進位文件存儲,對性能要求較高時可以將歷史冷數據使用文件存儲,再藉助SPL的高性能演算法與並行計算來提升查詢效率。此外,SPL封裝了標準應用介面(JDBC/ODBC/RESTful)供應用集成調用,也可以將SPL嵌入應用中使用,這樣應用就輕鬆具備了T+0查詢與複雜數據處理能力,將計算和存儲分離也更符合當代應用架構的需要。

冷熱混合計算

對於常見的冷熱分庫T+0查詢場景,SPL實現很簡單,這裡看一個例子。

本例中,Oracle作為生產庫存儲當期熱數據,MySQL存儲歷史冷數據。前端傳入一句標準SQL(A2),再藉助SPL的轉換功能將標準SQL轉換成對應資料庫的語法(B3)併發給資料庫查詢(B4),最後歸併結果進行最後的彙總運算(A5)。這裡使用了多線程並行方式(A3)同時執行兩個SQL,效率更高。

在這裡,SPL不僅完成了兩個資料庫的跨庫查詢,還提供了SQL轉換方法,更利於前端應用使用,同時擁有合併兩個資料庫計算結果後的繼續計算能力,本例是分組彙總。SPL還有更豐富的結構化數據對象及其上的豐富運算,除了分組彙總、迴圈分支、排序過濾、集合運算等基礎計算外,位置計算、排序排名、不規則分組也不在話下。

除了RDB,對於有些場景涉及的NoSQL、Hadoop等數據源也能支持,SPL具備多源混算能力,無論基於何種數據源都可以進行混合查詢實現T+0。比如MongoDB與MySQL混合查詢:

SPL的計算能力還能用於ETL,將生產數據轉移到歷史庫中,還經常伴隨一些轉換計算,這些都可以使用SPL來完成。比如出於某些原因,要將生產數據某些編碼欄位通過某個對照表轉換成另一種編碼(遵守一致性的編碼規則、整理數據類型獲得更好性能等),而對照表通常並不會存在生產庫中,而不能直接在生產庫中計算好,這就涉及多數據源計算了。

高性能

歷史冷數據量可能很大,使用RDB存儲容易受到資源容量等因素限制,而且數據讀取效率很差。相比之下,文件存儲具備很多優勢,不僅讀取效率更高,還可以有效利用文件壓縮、並行等機制提速,同時也不會像資料庫容易受到容量的限制。不過,開放的文本格式使用效率不高(無壓縮、解析數據類型慢等),一般會使用二進位格式文件。另外,文件存儲的最大問題是沒有計算能力,不像資料庫使用SQL可以很方便完成數據處理,通過硬編碼處理的難度很大。

這些問題都可以通過SPL來解決,SPL提供了兩種高性能二進位數據存儲格式集文件和組表,再藉助SPL的獨立計算能力可以直接基於文件和資料庫混合計算實現高效T+0查詢。比如前面的例子,可以使用SPL文件存儲歷史冷數據與生產庫熱數據混合查詢。

將歷史數據存儲在文件後與生產庫混合查詢,歷史數據使用游標可以支持大數據場景,A4針對文件游標進行分組彙總,A5歸併數據並彙總分組結果。這裡使用了SPL提供的二進位集文件(btx),相對文本更加高效。集文件採用了壓縮技術(占用空間更小讀取更快),存儲了數據類型(無需解析數據類型讀取更快),支持可追加數據的倍增分段機制,利用分段策略很容易實現並行計算,保證計算性能。

SPL還有另外一種支持列存的高效存儲形式組表,在參與計算的列數(欄位)較少時會有巨大優勢。組表上還實現了minmax索引,也支持倍增分段,這樣不僅能享受到列存的優勢,也更容易並行提升計算性能。

SPL還支持各種高性能演算法。比如常見的TopN運算,在SPL中TopN被理解為聚合運算,這樣可以將高複雜度的排序轉換成低複雜度的聚合運算,而且很還能擴展應用範圍。

這裡的語句中沒有排序字樣,也不會產生大排序的動作,在全集還是分組中計算TopN的語法基本一致,而且都會有較高的性能,類似的演算法在SPL中還有很多。

SPL也很容易實施並行計算,發揮多CPU的優勢。SPL有很多計算函數都提供並行機制,如文件讀取、過濾、排序只要增加一個@m選項就可以自動實施並行計算,簡單方便。

易集成

SPL封裝了標準JDBC和ODBC介面供應用調用,特別對於Java應用可以將SPL嵌入應用內使用,T+0查詢能力在應用端實現,不再依賴數據源,這樣可以充分解耦應用與數據源,獲得很好的移植性和可擴展性。

JDBC調用SPL 代碼示例:

Class.forName("com.esproc.jdbc.InternalDriver");
Connection conn =DriverManager.getConnection("jdbc:esproc:local://");
Statement st = connection.();
CallableStatement st = conn.prepareCall("{call splscript(?, ?)}");
st.setObject(1, 3000);
st.setObject(2, 5000);
ResultSet result=st.execute();

SPL是解釋執行的,天然支持熱切換。基於SPL的數據計算邏輯編寫、修改後不需要重啟,實時生效,使開發運維更加便捷。

相對其它T+0實現技術,SPL藉助自身獨立的強計算與跨數據源計算能力可以更方便完成T+0查詢,同時提供的高性能存儲和高性能演算法可以充分保障查詢效率,良好的集成性使得應用端可以輕鬆具備這些能力,是名副其實的T+0查詢利器。

參考資料

 

點擊關註,第一時間瞭解華為雲新鮮技術~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • lvs是內核裡面的功能,在內核中叫做ipvs 用戶空間使用ipvsadm這個工具包提供的工具來管理內核中的ipvs功能 ipvsadm 命令 ipvsadm核心功能: 集群服務管理:增、刪、改 集群服務的RS管理:增、刪、改 查看 使用 ipvsadm 管理集群服務:增、改、刪 增、修改: ipvs ...
  • LVS: lvs是一個負載調度器,由內核集成,性能強大,支持百萬計併發。 LVS集群的相關概念: VS:虛擬伺服器,指LVS伺服器自身 RS:提供服務的伺服器 CIP:客戶端ip地址 VIP:lvs伺服器對外發佈的ip地址,用戶通過vip訪問集群 DIP:LVS連內網的ip地址叫DIP,用於接收用戶 ...
  • Docker簡介和安裝 Docker是什麼 Docker 是一個應用打包、分發、部署的工具 你也可以把它理解為一個輕量的虛擬機,它只虛擬你軟體需要的運行環境,多餘的一點都不要, 而普通虛擬機則是一個完整而龐大的系統,包含各種不管你要不要的軟體。 跟普通虛擬機的對比 | 特性 | 普通虛擬機 | Do ...
  • Ansible使用playbook部署LNMP 環境介紹: | 系統|ip|主機名|服務| | : : | : : | : : | : : | |centos8|192.168.222.250|ansible| ansinle| |ceotos8|192.168.222.137|nginx|ngin ...
  • 表在資料庫中的存儲方式。 存儲引擎只存在mysql中,(Oracle中有對應機制,但是不叫存儲引擎)。 完整的建表語句: CREATE TABLE mytable( id INT(10) PRIMARY KEY, username VARCHAR(30) NOT NULL, PASSWORD VAR ...
  • 1、什麼是事務一個事務是一個完整的業務邏輯單元,不可再分。 比如:銀行轉賬,從A賬戶向B賬務轉賬10000,需要執行兩條update語句 update t_act set balance = balance - 10000 where actno = 'act-001' ; update t_act ...
  • 創建表的時候可以給欄位添加相應的約束,約束的目的:保證表中數據的合法性,唯一性,有效性。 非空約束(not null):約束欄位不能為NULL 唯一約束(unique):約束欄位不能重覆 主鍵約束(primary key):約束欄位既不能為NULL也不能重覆 外鍵約束(foreign key):阿裡 ...
  • ①索引到底是什麼; ②索引底層的實現; ③聚簇索引是什麼?二級索引呢; ④最左首碼原則; ⑤如何設計索引,遵循的原則; ⑥索引相關語法; ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...