全球廠商之最,華為17篇論文入選國際資料庫頂會ICDE

来源:https://www.cnblogs.com/huaweiyun/p/18205422
-Advertisement-
Play Games

本文分享自華為雲社區《全球廠商之最,華為GaussDB&GeminiDB,17篇論文入選國際資料庫頂會ICDE》 ,作者:GaussDB 資料庫。 5月13-17日,國際資料庫頂級學術會議 ICDE 2024 於荷蘭烏得勒支舉行。華為GaussDB 和GeminiDB 17篇論文入選,成為全球論文入 ...


本文分享自華為雲社區《全球廠商之最,華為GaussDB&GeminiDB,17篇論文入選國際資料庫頂會ICDE》 ,作者:GaussDB 資料庫。

5月13-17日,國際資料庫頂級學術會議 ICDE 2024 於荷蘭烏得勒支舉行。華為GaussDB 和GeminiDB 17篇論文入選,成為全球論文入選數量最多的資料庫廠商。華為愛丁堡研究所資料庫實驗室主任Nikolaos Ntarmos發表了題為”Huawei Cloud GaussDB, a Better Way to Database“的演講,向全球的學術機構和代表介紹了華為GaussDB的技術和商業成果。

1.png

ICDE全稱為”IEEE International Conference on Data Engineering”(IEEE國際數據工程大會),與SIGMOD、VLDB 並稱資料庫領域三大頂會,是資料庫領域最權威的國際頂級學術會議之一,在國際上享有盛譽並具有廣泛的學術影響力。

ICDE收錄了各大研究機構以及科技企業在資料庫領域最前沿、最頂級的研究成果。ICDE 2024是第40屆IEEE國際數據工程大會,華為17篇論文的入選,是華為科研團隊與外部團隊或組織友好合作共同努力的結果。下麵將摘選華為在本次大會入選的部分論文,後續將對所有入選的論文進行專題解讀。

GaussML: An End-to-End In-database Machine Learning System

《GaussML: An End-to-End In-database Machine Learning System》論文是由清華大學、華為和蘇黎世理工大學聯合共同完成,通過提升資料庫內機器學習演算法訓練和推理的性能,深度滿足用戶實時性分析的訴求。該論文獲得大會評審組的高度評價,認為其提出了一個全新的機器學習引擎。

原生庫內機器學習框架,簡稱GaussML,將機器學習訓練作為執行運算元,利用資料庫並行和分散式能力,展示出超越業界同類產品10倍以上機器學習推理和訓練的性能優勢,主要能力包括:

第一,論文首次提出資料庫內原生AI機器學習引擎的架構,機器學習演算法訓練和推理融合在SQL執行流程中,藉助資料庫的優化器、負載管理、併發處理、分散式並行能力,實現機器學習訓練和推理的極致高效;

第二,GaussML同時構建庫內AutoML能力,可以自適應進行參數調整,根據負載變化進行模型更正,設計一種端到端模型自動調優的能力,簡化用戶調整模型參數代價,提升資料庫內模型的使用便利;

第三,GaussML通過在資料庫內置原生機器學習訓練和推理流程,實現端到端自動調優能力,構建完整的庫內機器學習引擎,支撐客戶業務的智能實時分析。該框架通過提供SQL-like介面,簡化數據科學家使用機器學習訓練和推理代價,支持常用的機器學習演算法,滿足絕大多數客戶使用。

綜上,論文中提出一種全新的機器學習引擎,在多個公開數據集上該引擎表現出卓越的高性能優勢,向資料庫智能化發展上邁出了更遠一步。

GaussDB-Global: A Geographically Distributed Database System

《GaussDB-Global: A Geographically Distributed Database System》論文是華為高斯資料庫技術團隊的研究成果。論文中提出了一種基於高精度時鐘同步方法的分散式事務處理方法,並構建了跨地域分散式的全球資料庫系統GaussDB-Global。該論文的主要實現:

第一,採用同步時鐘的去中心化方法,地理分散式資料庫系統解決了中心化事務管理器的性能瓶頸問題,實現了中心化的事務管理到去中心化分散式事務管理之間無縫過渡,提供了更加靈活、便捷的部署方式,實現一套集群全球化部署。

第二,在分片數據的遠程讀取和長距離日誌傳送問題上,地理分散式資料庫系統支持在非同步副本上讀取,強一致性,可調整的新鮮度保證,以及動態負載均衡。在跨地域集群上的實驗結果表明,與中心化基線相比,該方法提供了高達14倍的只讀性能,標準數據集TPC-C吞吐量高出50%以上。

QCFE: An Efficient Feature Engineering for Query Cost Estimation

《QCFE: An Efficient Feature Engineering for Query Cost Estimation》論文是由哈爾濱工業大學和華為團隊共同完成,通過提出了一個高效的特征工程方法(QCFE),解決了現有查詢語句評估時的特征工程問題,該方法在時間-準確性效率方面取得顯著改進。論文的主要貢獻包括:

第一,提出了特征快照(Feature Snapshot)的概念,用於整合被忽略變數的影響,如資料庫旋鈕、硬體等,以提高查詢成本模型的準確性。

第二,設計了差異傳播特征減少方法,通過剪枝無效特征,進一步提高模型訓練和推斷效率。

第三,引入了簡化的SQL模板設計,以提高計算特征快照的時間效率。

第四,在廣泛的基準測試中,展示了QCFE相對於現有方法在時間-準確性效率方面的優勢,包括TPC-H、job-light和Sysbench等。

綜上,該研究的創新點在於提出了一種有效的特征工程方法,能夠顯著改善查詢成本估算的時間和準確性。

TRAP: Tailored Robustness Assessment for Index Advisors via Adversarial Perturbation

《TRAP: Tailored Robustness Assessment for Index Advisors via Adversarial Perturbation》論文是由廈門大學、清華大學和華為共同研究,通過提出一個基於對抗性擾動的工作負載生成框架TRAP,解決了現有的index advisor的魯棒性評估問題。

TRAP框架能夠生成有效的對抗性工作負載,用於評估index advisor的魯棒性。在index advisor的評估方面,TRAP具有明顯優勢。研究發現:

第一,通過對抗性工作負載的有效生成,可以準確評估index advisor的魯棒性,因為這些工作負載不會偏離原始工作負載,但可以識別由於工作負載漂移而導致的性能漏洞。

第二,為設計更具魯棒性的基於學習的index advisor,採用細粒度的狀態表示和候選剪枝策略可以提高性能。

第三,對於設計更具魯棒性的基於啟髮式的index advisor,考慮索引選擇過程中的索引交互作用和多列索引的使用是至關重要的。

綜上,以上發現為index advisor的設計和評估提供了深刻見解,並強調了在實際應用中評估index advisor的重要性。

Temporal-Frequency Masked Autoencoders for Time Series Anomaly Detection

《Temporal-Frequency Masked Autoencoders for Time Series Anomaly Detection》論文的問世,是為了幫助時序資料庫通過提前感知異常來降低損失。通過設計了一個輕量的基於深度學習的時頻掩碼自編碼器異常檢測演算法(TFMAE),展示了其在多個公開數據集上的良好性能。該論文被大會評審組高度評價,認為其提出了時序異常檢測的新範式,最終無需修改被 ICDE 2024 直接錄用。

作為首篇採用時頻掩碼對比的時序異常檢測論文,論文研究圍繞以下三點進行:

第一,提出了基於時間域和頻率域掩碼的時間序列異常檢測對比準則,其代替傳統重建誤差確定異常檢測閾值,這是一個不受分佈偏移影響的判斷準則。

第二,提出了基於視窗的時間域掩碼策略和基於幅度的頻率域掩碼策略以消除序列中潛在的異常觀察和模式。因此,TFMAE 是一個抗異常偏置模型。

第三,五個真實世界數據集與兩個合成數據集上實驗表明,TFMAE 在檢測性能與速度方面均取得提升。

綜上,《Temporal-Frequency Masked Autoencoders for Time Series Anomaly Detection》是首篇採用時頻掩碼對比的時序異常檢測論文,對醫療、製造、金融等行業的廣泛應用,具有現實推動作用。

本次大會華為入選論文研究方向涉及AI4DB、時序資料庫、查詢優化、資料庫內機器學習演算法訓練和推理……如此多的科技成果得益於華為長期在資料庫前沿技術領域的探索和實踐,以及與全球頂尖學術機構共同解決資料庫領域世界難題,通過產、學、研、用深度融合,將前沿創新研究融入產品技術,構建健康的資料庫產業生態,為客戶提供創新的、有競爭力的資料庫產品和服務。

未來,華為將在資料庫領域持續創新,持續深耕,引領行業發展走出新高度。

點擊關註,第一時間瞭解華為雲新鮮技術~

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • GeminiDB PITR執行數據快照業務無感,通常可在5分鐘以內恢復到指定時間點,有效解決傳統備份方案時間長、恢復粒度大等痛點問題。 ...
  • 引言 在數據驅動的世界中,企業正在尋求可靠且高性能的解決方案來管理其不斷增長的數據需求。本系列博客從一個重視數據安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社區產品以及第三方工具構建無伺服器數據倉庫的解耦方法。 本篇博客著重探討 EMR ...
  • Apache DolphinScheduler即將迎來3.3.0版本的發佈,屆時將有一系列重要的更新和改進。在近期的社區5月份用戶線上分享會上,項目PMC 阮文俊為大家介紹了3.3.0版本將帶來的主要更新和改進,併為大家指出瞭如何參與社區的方式。 什麼是DolphinScheduler? Dolph ...
  • 本文分享自華為雲社區《Flink SQL性能優化實踐》 ,作者:超夢。 在大數據處理領域,Apache Flink以其流處理和批處理一體化的能力,成為許多企業的首選。然而,隨著數據量的增長,性能優化變得至關重要。本文將深入淺出地探討Flink SQL的常見性能問題、調優方法、易錯點及調優技巧,並提供 ...
  • 生產環境單表查詢超時,表數據500萬+,這點數據按道理不加不加索引都不應該超時。排查業務數據,發現業務數據每天插入25萬+。初步懷疑併發導致數據處理不及時,進一步排查每分鐘都有300的左右實時數據插入到業務表,鍋應該不在這裡排查數據伺服器,發現CPU占用不高,512G的記憶體占用高達96%。但sql ...
  • 作者 | 郭煒 導讀:最新發佈的《技術成熟度曲線2024》全面評估數據集成技術架構的7個維度,包括技術成熟度、技術難度、業務價值、技術成熟周期、管理協作難度、大模型結合等評估維度,報告篇幅較長,我們將報告分為3篇系列文章,本文為報告第一篇,描述了 「從ETL 到ELT,到 EtLT的趨勢」。接下來系 ...
  • 國產化信創,即採用國產信息技術產品和服務,構建自主可控的信息技術體系。近年來,隨著國家對網路安全和信息安全的重視程度不斷提高,國產化信創已經成為國家戰略的重要組成部分,並呈現出以下大趨勢: ● 政策驅動,加速發展 國家出台了一系列政策法規,大力支持國產化信創產業發展。例如,《“十四五”數字經濟發展規 ...
  • 官答|slow_query_log_file實例記憶體中變數與配置文件設置的不一致 官答欄目針對GreatSQL資料庫中的問題,選取官方論壇和討論群中的典型提問進行深入解答。內容涵蓋資料庫安裝部署、配置優化、故障排查、性能測試等方面。 在文章中,我們不僅提供解決方案,還會結合實例深入剖析問題的成因,提 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...