產學研合作生態硬核來襲,共探資料庫技術發展與應用

来源:https://www.cnblogs.com/tencentdb/archive/2022/08/24/16619404.html
-Advertisement-
Play Games

騰訊雲資料庫一直致力於推動資料庫基礎研究創新、資料庫產學研合作生態建設,助力國產資料庫學術人才培養和技術創新生態建設發展。 為讓更多資料庫從業者瞭解資料庫領域的最新研究成果,熟悉更多行業前沿發展趨勢,更好地探索前沿技術創新,8月16日下午,騰訊雲資料庫邀請到華南師範大學二級教授 湯庸、長江學者 毛睿 ...


騰訊雲資料庫一直致力於推動資料庫基礎研究創新、資料庫產學研合作生態建設,助力國產資料庫學術人才培養和技術創新生態建設發展。

為讓更多資料庫從業者瞭解資料庫領域的最新研究成果,熟悉更多行業前沿發展趨勢,更好地探索前沿技術創新,8月16日下午,騰訊雲資料庫邀請到華南師範大學二級教授 湯庸、長江學者 毛睿、中國人民大學教授 盧衛和騰訊雲資料庫專家工程師 智雅楠帶來主題為“資料庫技術的發展與應用”的前沿學術分享直播。本期為大家帶來各位專家的分享精華,都是硬核乾貨!

一、數據管理與數據應用

湯庸,學者網創始人、華南師範大學二級教授

file

資料庫的目的在於數據管理與應用。數據管理上,對於結構化、可形式化的數據,採用資料庫技術進行管理;對於半結構化、非結構化的數據,運用大數據技術進行管理。數據應用上可分為資料庫應用、數據智能。以查詢為例,資料庫應用會返回統一的結果,相對比較準確;數據智能則類似於數據檢索,會返回較多相關的結果,不一定准確。在數據管理與應用的過程中,則需要用到資料庫技術與數據科學。

數據管理方面,湯庸教授以TempDB時態數據管理軟體為例,分享時態資料庫的相關內容。TempDB在邏輯上使用雙時態數據模型,使用ATSQL2語言,支持電子政務、電子商務、決策支持等信息處理系統中的時態應用;同時,TempDB在技術上基於關係資料庫管理系統MySQL平臺、採用JAVA語言進行底層開發,具有較強的可移植性以及部署方便。

在具體概念上,時間數據與時態信息是兩個不同的概念,時間數據是指“時間作為一種數據類型”,包括時間點、區間、跨度等,可用於Allen時間關係演算、時間粒度轉化;時態信息是指“時間做為信息維度”, 在陳述信息的同時加上時間屬性。時態資料庫的相關概念還包括:三種時間數據、四種時態資料庫以及兩個特殊變元

在理論層面上,時態資料庫理論是對關係型資料庫理論的拓展,又可分為歷史關係數據模型HRDM、雙時態概念模型BCDM兩種理論。在具體實現上,時態資料庫也需要支持DDL、DML、查詢語言,以及需要支持時態約束。

TempDB是基於時態查詢語言ATSQL2開發的時態信息處理前端構件,本質上是中間件。TempDB可作為獨立平臺來使用,也可以通過集成類庫包,將時態信息處理需求方便地集成到應用中,從而提高軟體的生產率和可重用性。湯庸教授從語言規範、體系架構、實例資料庫、運行界面(交互方式)、應用模型等方面詳細介紹了TempDB的有關情況。

結合最新的行業研究趨勢,湯庸教授還對時序資料庫和時態資料庫進行了區分,並分享了目前時態數據管理與應用的難點。

數據應用方面,湯庸教授以TSCHOLAT大數據智能應用為例進行分享。

當前,很多學者在進行科研教學時都需要進行社會化協作,這種協作往往需要基於內容(個人學術背景、學術信息、教學資源等),要求可信、實時、有效

基於上述痛點,TSCHOLAT即學者網應運而生。學者網是主要面向學者的社交網路、科研教學協作平臺,目標是為學者們提供自主可控空間以及可信交流平臺。湯庸教授從學術空間、學術圈感知與可信交流、學術自媒體、群組協作平臺、教學協作空間、學術門戶、大數據智能分析等方面全面介紹了學者網的功能。

相對常見社交網路而言,學者網有更豐富、更聚焦的數據內涵,是獨特的科研教育大數據生產者,主要是以學者為中心的圖數據,核心科學問題是學者關聯分析。根據其數據特點,學者網在時態數據應用上進行開發,開展學者影響力分析、學者時態關係與學者時態知識圖譜研究等方面的工作。

二、大數據泛構:應對多樣性挑戰的通用數據處理模式

毛睿,長江學者,深圳大學特聘教授,博士、博導

file

在毛睿老師看來,科學在於通用。基於這種理念,他提出了大數據泛構技術——一種可應對多樣性挑戰的通用模式,並建立了基於度量空間的通用大數據處理理論框架

過去包括Hadoop、Spark等,更多是擅長於某種特定場景,功能單一。資料庫的成功為大數據的發展帶來了啟發,即要走通用發展路線。目前,通用的大數據管理分析系統已經成為行業痛點。

當前大數據處理主要圍繞volume和velocity這兩個挑戰,對於variety挑戰的研究相對較少。通用的數據處理技術因其廣泛的適用性和相對低的平均開發維護成本,一直受到商業資料庫管理系統的青睞。大數據泛構(big data genhierarchy)把數據抽象成度量空間中的點,僅利用數據間距離的三角不等性進行數據的管理和挖掘等工作,具有高度的通用性,有望成為下一代通用數據處理系統的重要組件

file

專用和通用系統往往交替發展。一個技術誕生之初更多是專用系統,隨著場景、技術的積累更加豐富,將逐漸走向通用。要把一個技術做成通用的基本技術手段,可從多樣化著手:

  • 將variety數據抽象成統一的數據類型;
  • 將variety距離抽象成統一的距離函數;
  • 在以上基礎上,針對統一的類型、距離的特點進行大數據管理分析。

同時結合度量空間理論,即可獲得一個覆蓋面更廣、更通用的數據處理模式。

三、分散式資料庫的多級一致性及構建技術

盧衛,中國人民大學教授、博士生導師

file

金融行業尤為註重“準”,即數據的一致性,數據不能出錯。但不同業務場景對一致性或者“準”的理解、要求並非都一樣。這將會對資料庫一致性技術創新帶來複雜的挑戰。盧衛老師以三類場景為例:

在證券交易中,其一致性包含兩個層面:即交易必須正確、交易必須嚴格有序,賣出和買入股票必須實時可見,這是要求最高的。

第二類場景中,比如轉賬,首先要求保證準確,其次交易並非嚴格有序,即我轉給別人的金額,別人不一定能實時可見(延遲到賬)。這對一致性的性能要求有所弱化。

第三類場景中,常見的比如12306,首先當然交易必須準確,一張票不能賣兩次;然而基於資料庫關係模型,多個用戶可以同時訪問一個數據。這就可能會出現12306中顯示有票但無法購買的情況。

由此可見,資料庫一致性理論並不能詳細的描述每一種用戶對於一致性的要求。

過去集中式時代,系統架構依賴於統一的調度,因此可串列化模型也能達到嚴格可串列化的準確效果。然而,當來到去中心化的分散式資料庫時代,如果仍然依賴集中式調度,性能和可擴展性都無法滿足應用的需求。過去集中式的IBM小型機、EMC存儲、Oracle資料庫(IOE)在處理小規模的數據場景時是合適的。但是這種架構模式的問題在於,當數據量比較大或者業務場景比較密集時,集中式就會成為整個系統的負擔。

嚴格串列化雖然能保證數據的準確性,但也帶來了較多的問題。以Google Spanner為例,Google Spanner支持嚴格可串列化,但是嚴格可串列化要求有一個原子鐘,或者有一個中心授時器(本質上是因為協調器和協調器之間缺少一個協調),因而導致性能較低,難以被廣泛應用於實際業務場景中。

針對以上分散式一致性的困境,中國人民大學-騰訊協同創新實驗室研究提出“多級一致性”的事務處理理念,並應用於騰訊分散式資料庫TDSQL產品中。該技術包含嚴格可串列化、順序可串列化、可串列化三大隔離級別,可針對不同應用場景要求,極大地平衡性能與一致性要求,滿足金融及各類企業場景的分散式事務處理需求

在這一套去中心化的事務處理機制、多種隔離級別的一致性統一建模技術基礎上,中國人民大學-騰訊協同創新實驗室同時研究提出雙向動態時間戳調整演算法,使得TDSQL可在一套系統內實現高性能多級一致性支持。

分散式環境下提出多級一致性模型,確保TDSQL無任何數據異常,且具備高性能的可擴展性,解決了分散式資料庫在金融級場景應用的最核心技術挑戰,使得國產分散式資料庫實現在金融核心系統場景的可用。基於此,TDSQL是當前國內唯一進入國有大型銀行核心系統正式投產的國產分散式資料庫。

四、雲環境下如何構建一個彈性伸縮、高性價比的分散式資料庫存儲引擎

智雅楠,騰訊雲資料庫專家工程師

file

分散式資料庫TDSQL的目標是雲環境下如何構建一個彈性伸縮、高性價比的分散式資料庫存儲引擎,即把資料庫打造成一種服務,用戶隨取隨用,把簡單留給用戶,把複雜留給自己

一方面,用戶可以像使用單機資料庫一樣使用分散式資料庫,同時業務體驗又能具備無限擴展的計算能力、無限擴展的存儲能力、伸縮過程用戶無感知、100%相容MySQL、高可靠高可用、支持存儲過程trigger、不用需指定shared key等特性。另一方面,還需要做到高性價比,用戶需要多少資源就用多少資源。

為了實現這個目標,TDSQL選擇了擴展性不受限制的雲原生Share Nothing架構。在構建過程中,對多維度的數據粒度劃分、數據平滑遷移技術、集群的負載均衡三方面進行技術創新突破,包括實現智能數據地理感知、代價估算數據分佈策略、基於AI的無服務彈性可伸縮技術等,可感知系統故障規律,建立高精度的資料庫資源容量預測模型,進行智能資源調度、敏捷彈性伸縮、數據佈局優化、關鍵參數自動調優、分散式共識協議同步與通信優化,形成高可用、高效率的彈性計算能力,做到低成本支持大規模突發性業務。

作為國內領先的資料庫廠商,騰訊雲資料庫一直致力於推動資料庫基礎研究創新、資料庫產學研合作生態建設,通過校企聯合實驗室共建,面向青年學者的CCF-騰訊犀牛鳥基金與騰訊犀牛鳥科研專項等,與高校、科研機構構建起“產學研”一體的長期合作,將技術研究成果轉換為應用落地,校企聯合持續輸出前沿技術創新與示範性應用。

file
騰訊雲資料庫負責人潘安群先生與騰訊高校合作總監 劉婷婷女士為現場分享嘉賓頒發榮譽證書

騰訊雲資料庫誕生自騰訊內部業務金融級場景,歷經海量場景十餘年研發打磨,具備金融級分散式、雲原生、實時分析、企業級通用等能力,目前已服務金融、政務、工業製造等行業超過50萬家客戶。騰訊企業級分散式資料庫TDSQL是國內首家應用於互聯網分散式銀行核心系統、銀行傳統核心系統,也是首家幫助國內銀行核心系統從IBM大機下移至國產分散式架構的國產分散式資料庫。目前,騰訊TDSQL已經幫助20餘家金融機構完成核心替換,國內TOP 10銀行機構服務占比超過6家。TDSQL也很好了支持了第七次全國人口普查,以及騰訊會議、健康碼等國計民生的數字化應用。

未來,騰訊雲資料庫將繼續加大對資料庫產學研合作生態的投入,通過與騰訊高校合作、電腦與資料庫領域學術組織等內外部合作伙伴合作,持續挖掘更有效的產學合作模式,加強產學交流互動,助力國產資料庫人才培養和技術創新生態建設。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 摘要:SPL實現了更優演算法,性能遠遠超過存儲過程,能顯著提高單機計算效率,非常適合跑批計算。 本文分享自華為雲社區《Java開源專業計算引擎:跑批真的這麼難嗎?》,作者: Java李楊勇。 業務系統產生的明細數據通常要經過加工處理,按照一定邏輯計算成需要的結果,用以支持企業的經營活動。這類數據加工任 ...
  • 在日常的數據分析中,經常會遇到一類問題:計算從某個時間點開始的累計數據,但在某些時間點又是沒有數據的,需得到的結果是每個時間點的累計數據。 比如以下情況,左邊是原始數據,右邊是期望輸出數據: 因為大部分資料庫不像其他編程語言,沒有函數式編程,不能直接for迴圈。如果支持游標迴圈,則比較容易實現。 下 ...
  • 一、困境頻生 前端代碼管理何解? 前端代碼管理一直是困擾不少前端開發團隊的難題,從開發到發佈的整體工作流程中,除了常規的技術問題外,往往還伴隨著溝通成本、維護成本及協作效率等問題。這些問題在團隊規模較小的時候可能不太明顯,但是當團隊規模變大時就矛盾越發凸顯。 數棧前端開發團隊負責著離線開發,實時開發 ...
  • 前面已經講了MySQL的其他查詢性能優化方式,沒看過可以去瞭解一下: MySQL查詢性能優化七種武器之索引潛水 MySQL查詢性能優化七種武器之鏈路追蹤 今天要講的是MySQL的另一種查詢性能優化方式 — 索引下推(Index Condition Pushdown,簡稱ICP),是MySQL5.6版... ...
  • RadonDB MySQL Kubernetes[1] 於近日正式發佈新版本 2.2.1[2]。該版本主要在用戶管理、高可用組件等進行了優化,並修複一些問題。 致謝 感謝 @runkecheng @acekingke @zhl003 @qianfen2021 @hayleyling 提交的修改。 新 ...
  • NVIDIA InfiniBand是一種被廣泛使用的網路互聯技術,基於IBTA(InfiniBand Trade Association)而定義的高帶寬、低延時、低CPU占用率、大規模易擴展的通信技術,是世界領先的超級電腦的互連首選,為高性能計算、人工智慧、雲計算、存儲等眾多數據密集型應用提供了強 ...
  • ORC文件是以二進位的方式存儲的,不可以直接讀取,但由於ORC的自描述特性,其讀寫不依賴於 Hive Metastore 或任何其他外部元數據。本身存儲了文件數據、數據類型及編碼信息。因為文件是自包含的,所以讀取ORC文件數據無需考慮用戶使用環境。 ...
  • ps:此隨筆基於mysql 5.7.*版本。 已知root賬戶密碼進行登錄 格式:mysql [-h地址] [-p埠] -u用戶名 -p密碼 省略不寫地址或埠則自動使用預設。(地址:localhost;埠:3306) 兩種方式進行登錄。方式1: 方式2: 忘記root賬戶密碼進行登錄(修改r ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...