騰訊雲資料庫一直致力於推動資料庫基礎研究創新、資料庫產學研合作生態建設,助力國產資料庫學術人才培養和技術創新生態建設發展。 為讓更多資料庫從業者瞭解資料庫領域的最新研究成果,熟悉更多行業前沿發展趨勢,更好地探索前沿技術創新,8月16日下午,騰訊雲資料庫邀請到華南師範大學二級教授 湯庸、長江學者 毛睿 ...
騰訊雲資料庫一直致力於推動資料庫基礎研究創新、資料庫產學研合作生態建設,助力國產資料庫學術人才培養和技術創新生態建設發展。
為讓更多資料庫從業者瞭解資料庫領域的最新研究成果,熟悉更多行業前沿發展趨勢,更好地探索前沿技術創新,8月16日下午,騰訊雲資料庫邀請到華南師範大學二級教授 湯庸、長江學者 毛睿、中國人民大學教授 盧衛和騰訊雲資料庫專家工程師 智雅楠帶來主題為“資料庫技術的發展與應用”的前沿學術分享直播。本期為大家帶來各位專家的分享精華,都是硬核乾貨!
一、數據管理與數據應用
湯庸,學者網創始人、華南師範大學二級教授
資料庫的目的在於數據管理與應用。數據管理上,對於結構化、可形式化的數據,採用資料庫技術進行管理;對於半結構化、非結構化的數據,運用大數據技術進行管理。數據應用上可分為資料庫應用、數據智能。以查詢為例,資料庫應用會返回統一的結果,相對比較準確;數據智能則類似於數據檢索,會返回較多相關的結果,不一定准確。在數據管理與應用的過程中,則需要用到資料庫技術與數據科學。
數據管理方面,湯庸教授以TempDB時態數據管理軟體為例,分享時態資料庫的相關內容。TempDB在邏輯上使用雙時態數據模型,使用ATSQL2語言,支持電子政務、電子商務、決策支持等信息處理系統中的時態應用;同時,TempDB在技術上基於關係資料庫管理系統MySQL平臺、採用JAVA語言進行底層開發,具有較強的可移植性以及部署方便。
在具體概念上,時間數據與時態信息是兩個不同的概念,時間數據是指“時間作為一種數據類型”,包括時間點、區間、跨度等,可用於Allen時間關係演算、時間粒度轉化;時態信息是指“時間做為信息維度”, 在陳述信息的同時加上時間屬性。時態資料庫的相關概念還包括:三種時間數據、四種時態資料庫以及兩個特殊變元。
在理論層面上,時態資料庫理論是對關係型資料庫理論的拓展,又可分為歷史關係數據模型HRDM、雙時態概念模型BCDM兩種理論。在具體實現上,時態資料庫也需要支持DDL、DML、查詢語言,以及需要支持時態約束。
TempDB是基於時態查詢語言ATSQL2開發的時態信息處理前端構件,本質上是中間件。TempDB可作為獨立平臺來使用,也可以通過集成類庫包,將時態信息處理需求方便地集成到應用中,從而提高軟體的生產率和可重用性。湯庸教授從語言規範、體系架構、實例資料庫、運行界面(交互方式)、應用模型等方面詳細介紹了TempDB的有關情況。
結合最新的行業研究趨勢,湯庸教授還對時序資料庫和時態資料庫進行了區分,並分享了目前時態數據管理與應用的難點。
數據應用方面,湯庸教授以TSCHOLAT大數據智能應用為例進行分享。
當前,很多學者在進行科研教學時都需要進行社會化協作,這種協作往往需要基於內容(個人學術背景、學術信息、教學資源等),要求可信、實時、有效。
基於上述痛點,TSCHOLAT即學者網應運而生。學者網是主要面向學者的社交網路、科研教學協作平臺,目標是為學者們提供自主可控空間以及可信交流平臺。湯庸教授從學術空間、學術圈感知與可信交流、學術自媒體、群組協作平臺、教學協作空間、學術門戶、大數據智能分析等方面全面介紹了學者網的功能。
相對常見社交網路而言,學者網有更豐富、更聚焦的數據內涵,是獨特的科研教育大數據生產者,主要是以學者為中心的圖數據,核心科學問題是學者關聯分析。根據其數據特點,學者網在時態數據應用上進行開發,開展學者影響力分析、學者時態關係與學者時態知識圖譜研究等方面的工作。
二、大數據泛構:應對多樣性挑戰的通用數據處理模式
毛睿,長江學者,深圳大學特聘教授,博士、博導
在毛睿老師看來,科學在於通用。基於這種理念,他提出了大數據泛構技術——一種可應對多樣性挑戰的通用模式,並建立了基於度量空間的通用大數據處理理論框架。
過去包括Hadoop、Spark等,更多是擅長於某種特定場景,功能單一。資料庫的成功為大數據的發展帶來了啟發,即要走通用發展路線。目前,通用的大數據管理分析系統已經成為行業痛點。
當前大數據處理主要圍繞volume和velocity這兩個挑戰,對於variety挑戰的研究相對較少。通用的數據處理技術因其廣泛的適用性和相對低的平均開發維護成本,一直受到商業資料庫管理系統的青睞。大數據泛構(big data genhierarchy)把數據抽象成度量空間中的點,僅利用數據間距離的三角不等性進行數據的管理和挖掘等工作,具有高度的通用性,有望成為下一代通用數據處理系統的重要組件。
專用和通用系統往往交替發展。一個技術誕生之初更多是專用系統,隨著場景、技術的積累更加豐富,將逐漸走向通用。要把一個技術做成通用的基本技術手段,可從多樣化著手:
- 將variety數據抽象成統一的數據類型;
- 將variety距離抽象成統一的距離函數;
- 在以上基礎上,針對統一的類型、距離的特點進行大數據管理分析。
同時結合度量空間理論,即可獲得一個覆蓋面更廣、更通用的數據處理模式。
三、分散式資料庫的多級一致性及構建技術
盧衛,中國人民大學教授、博士生導師
金融行業尤為註重“準”,即數據的一致性,數據不能出錯。但不同業務場景對一致性或者“準”的理解、要求並非都一樣。這將會對資料庫一致性技術創新帶來複雜的挑戰。盧衛老師以三類場景為例:
在證券交易中,其一致性包含兩個層面:即交易必須正確、交易必須嚴格有序,賣出和買入股票必須實時可見,這是要求最高的。
第二類場景中,比如轉賬,首先要求保證準確,其次交易並非嚴格有序,即我轉給別人的金額,別人不一定能實時可見(延遲到賬)。這對一致性的性能要求有所弱化。
第三類場景中,常見的比如12306,首先當然交易必須準確,一張票不能賣兩次;然而基於資料庫關係模型,多個用戶可以同時訪問一個數據。這就可能會出現12306中顯示有票但無法購買的情況。
由此可見,資料庫一致性理論並不能詳細的描述每一種用戶對於一致性的要求。
過去集中式時代,系統架構依賴於統一的調度,因此可串列化模型也能達到嚴格可串列化的準確效果。然而,當來到去中心化的分散式資料庫時代,如果仍然依賴集中式調度,性能和可擴展性都無法滿足應用的需求。過去集中式的IBM小型機、EMC存儲、Oracle資料庫(IOE)在處理小規模的數據場景時是合適的。但是這種架構模式的問題在於,當數據量比較大或者業務場景比較密集時,集中式就會成為整個系統的負擔。
嚴格串列化雖然能保證數據的準確性,但也帶來了較多的問題。以Google Spanner為例,Google Spanner支持嚴格可串列化,但是嚴格可串列化要求有一個原子鐘,或者有一個中心授時器(本質上是因為協調器和協調器之間缺少一個協調),因而導致性能較低,難以被廣泛應用於實際業務場景中。
針對以上分散式一致性的困境,中國人民大學-騰訊協同創新實驗室研究提出“多級一致性”的事務處理理念,並應用於騰訊分散式資料庫TDSQL產品中。該技術包含嚴格可串列化、順序可串列化、可串列化三大隔離級別,可針對不同應用場景要求,極大地平衡性能與一致性要求,滿足金融及各類企業場景的分散式事務處理需求。
在這一套去中心化的事務處理機制、多種隔離級別的一致性統一建模技術基礎上,中國人民大學-騰訊協同創新實驗室同時研究提出雙向動態時間戳調整演算法,使得TDSQL可在一套系統內實現高性能多級一致性支持。
分散式環境下提出多級一致性模型,確保TDSQL無任何數據異常,且具備高性能的可擴展性,解決了分散式資料庫在金融級場景應用的最核心技術挑戰,使得國產分散式資料庫實現在金融核心系統場景的可用。基於此,TDSQL是當前國內唯一進入國有大型銀行核心系統正式投產的國產分散式資料庫。
四、雲環境下如何構建一個彈性伸縮、高性價比的分散式資料庫存儲引擎
智雅楠,騰訊雲資料庫專家工程師
分散式資料庫TDSQL的目標是雲環境下如何構建一個彈性伸縮、高性價比的分散式資料庫存儲引擎,即把資料庫打造成一種服務,用戶隨取隨用,把簡單留給用戶,把複雜留給自己。
一方面,用戶可以像使用單機資料庫一樣使用分散式資料庫,同時業務體驗又能具備無限擴展的計算能力、無限擴展的存儲能力、伸縮過程用戶無感知、100%相容MySQL、高可靠高可用、支持存儲過程trigger、不用需指定shared key等特性。另一方面,還需要做到高性價比,用戶需要多少資源就用多少資源。
為了實現這個目標,TDSQL選擇了擴展性不受限制的雲原生Share Nothing架構。在構建過程中,對多維度的數據粒度劃分、數據平滑遷移技術、集群的負載均衡三方面進行技術創新突破,包括實現智能數據地理感知、代價估算數據分佈策略、基於AI的無服務彈性可伸縮技術等,可感知系統故障規律,建立高精度的資料庫資源容量預測模型,進行智能資源調度、敏捷彈性伸縮、數據佈局優化、關鍵參數自動調優、分散式共識協議同步與通信優化,形成高可用、高效率的彈性計算能力,做到低成本支持大規模突發性業務。
作為國內領先的資料庫廠商,騰訊雲資料庫一直致力於推動資料庫基礎研究創新、資料庫產學研合作生態建設,通過校企聯合實驗室共建,面向青年學者的CCF-騰訊犀牛鳥基金與騰訊犀牛鳥科研專項等,與高校、科研機構構建起“產學研”一體的長期合作,將技術研究成果轉換為應用落地,校企聯合持續輸出前沿技術創新與示範性應用。
騰訊雲資料庫負責人潘安群先生與騰訊高校合作總監 劉婷婷女士為現場分享嘉賓頒發榮譽證書
騰訊雲資料庫誕生自騰訊內部業務金融級場景,歷經海量場景十餘年研發打磨,具備金融級分散式、雲原生、實時分析、企業級通用等能力,目前已服務金融、政務、工業製造等行業超過50萬家客戶。騰訊企業級分散式資料庫TDSQL是國內首家應用於互聯網分散式銀行核心系統、銀行傳統核心系統,也是首家幫助國內銀行核心系統從IBM大機下移至國產分散式架構的國產分散式資料庫。目前,騰訊TDSQL已經幫助20餘家金融機構完成核心替換,國內TOP 10銀行機構服務占比超過6家。TDSQL也很好了支持了第七次全國人口普查,以及騰訊會議、健康碼等國計民生的數字化應用。
未來,騰訊雲資料庫將繼續加大對資料庫產學研合作生態的投入,通過與騰訊高校合作、電腦與資料庫領域學術組織等內外部合作伙伴合作,持續挖掘更有效的產學合作模式,加強產學交流互動,助力國產資料庫人才培養和技術創新生態建設。