SIGMOD 數據管理國際會議是資料庫領域具有最高學術地位的國際性會議，位列資料庫方向頂級會議之首。近日，騰訊雲資料庫團隊的最新研究成果入選 SIGMOD 2022 Research Full Paper（研究類長文），入選論文題目為“HUNTER: An Online Cloud Database ...

SIGMOD 數據管理國際會議是資料庫領域具有最高學術地位的國際性會議，位列資料庫方向頂級會議之首。近日，騰訊雲資料庫團隊的最新研究成果入選 SIGMOD 2022 Research Full Paper（研究類長文），入選論文題目為“HUNTER: An Online Cloud Database Hybrid Tuning System for Personalized Requirements”。標志著騰訊雲資料庫團隊在資料庫AI智能化上取得進一步突破，實現性能領先。

資料庫參數自動調優在學術界和工業界都已有較多研究，但現有的方法在缺少歷史數據時或是面對新負載進行參數調優時，往往面臨著調優時間過長的問題(可達到數天)。在此篇論文中，團隊提出了混合調優系統Hunter，即改進後的 CDBTune+，主要解決了⼀個問題：如何在保證調優效果的前提下顯著減少調優時間。經實驗調優效果明顯：隨著併發度提升實現調優時間準線性降低，在單併發度場景下調優時間只需17小時，在20併發度場景下調優時間縮短至2小時。

工作原理（技術原理解析）

這是CDB/CynosDB資料庫團隊第三次研究成果論文被SIGMOD收錄。繼2019年資料庫團隊首度提出基於深度強化學習(DRL)的端到端雲資料庫參數調優系統CDBTune，該研究論文“An End-to-End Automatic Cloud Database Tuning System Using Deep Reinforcement Learning”入選SIGMOD 2019 Research Full Paper（研究類長文）。

file

雖然CDBTune 在調參效果上已經達到了⼀個相當高的水平，但我們也發現，CDBTune 需要較長的調優時間才能通過自我學習達到較高的性能。

對此，本次收錄論文中提出改進的 CDBTune+，能夠在保證調優效果的前提下極大地縮減調優耗時。

改進的混合調優系統CDBTune+，主要包含樣本生成、搜索空間優化、深度推薦三個階段。樣本生成階段利用遺傳演算法進行初期調優，快速獲取高質量樣本；搜索空間優化階段利用上⼀階段的樣本信息減小解空間，減少學習成本；深度推薦階段利用之前階段的信息進行維度優化和強化學習預訓練，保證調優效果的同時顯著減少調優時間。

為了進⼀步對調優過程進行加速，我們充分利用CDB 的克隆技術，採用多台資料庫實例實現並行化，令整個調優時間更進⼀步地減少。

file

樣本生成

如下圖所示，由於基於學習的調優方法在訓練初期都有著調優效果差、收斂速度慢等問題（我們稱之為冷啟動問題）。

我們認為這些方法面臨冷啟動問題主要是因為：

1、樣本數量少質量差，網路難以快速學到正確的探索方向。
2、搜索空間大，網路結構複雜，學習速度緩慢。

為了緩解上述問題，我們採用收斂速度更快的啟髮式方法（如：遺傳演算法(GA)）進行初期的調優，以此快速獲得高質量的樣本。

如圖 5 所示，不同方法進行 300 次的參數推薦，圖中是這 300 次參數所對應的資料庫性能分佈。可以見得，相較於其他的方法，GA 能夠收集到更多的高性能參數。

雖然有著更快的學習速度，但是 GA 卻可能更容易收斂到次優解，如圖 6 所示。

file
file

啟髮式方法雖有著較快的收斂速度，但是卻容易收斂到局部最優，導致最終調優效果不佳。

而基於學習的方法卻在較長的調優時間後可以得到較高的性能，但是卻需要較長的訓練時間，速度較慢。我們將兩種方法結合，即加快了調優速度，也確保了參數質量。

搜索空間優化

單純地將兩者拼接難以有⼀定的性能提升（節約約 20%的時間），但是我們期望更多。

利用樣本生成階段可以獲得較多高質量的樣本，但是卻沒有將其效果充分發揮。我們利用PCA 進行狀態空間降維，Random Forests 進行參數重要性排序。

PCA 是⼀種常用的降維方法，可將高維數據降為低維數據的同時保留大部分信息。我們採用累計方差貢獻率來衡量信息的保留度，⼀般來說，當累計方差貢獻率 > 90%時即可認為信息得到了完全的保留。

我們選擇貢獻率最大的兩個成分，並以此作為 x、y 軸描點，以其對應的資料庫性能作為點的顏色（顏色越深性能越低），可以看出，低性能的點可以被兩個成分較為明顯的區分開來，由此可見，PCA 能夠幫助 DRL 更好地學習。

隨機森林可以被用來計算特征的重要性，我們以資料庫參數為輸入，對應的資料庫性能為輸出訓練隨機森林模型，然後計算各個資料庫參數的重要性，併進行排序。採用不同數量的 Top 參數進行參數調優可以看到資料庫最優性能的變化，在⼀定數量的樣本保證下，TPC-C 負載調整 20 個參數即可達到較高的性能。
file