拒絕“爆雷”!GaussDB(for MySQL)新上線了這個功能

来源:https://www.cnblogs.com/huaweiyun/archive/2023/03/29/17268336.html
-Advertisement-
Play Games

摘要:智能把控大數據量查詢,防患系統奔潰於未然。 本文分享自華為雲社區《拒絕“爆雷”!GaussDB(for MySQL)新上線了這個功能》,作者:GaussDB 資料庫。 什麼是最大讀取行 一直以來,大數據量查詢是資料庫DBA們調優的重點,DBA們通常十八般武藝輪番上陣以期提升大數據查詢的性能:例 ...


摘要:智能把控大數據量查詢,防患系統奔潰於未然。

本文分享自華為雲社區《拒絕“爆雷”!GaussDB(for MySQL)新上線了這個功能》,作者:GaussDB 資料庫。

什麼是最大讀取行

一直以來,大數據量查詢是資料庫DBA們調優的重點,DBA們通常十八般武藝輪番上陣以期提升大數據查詢的性能:例如分庫分表、給表增加索引、設定合理的WHERE查詢條件、限定單次查詢的條數……

然而,DBA再厲害,應用程式千千萬,寫代碼的程式員萬碼奔騰,大數據量的查詢像地雷,不定什麼時候就爆了。比如隱藏在某段代碼里的查詢,因為一個新手程式員的經驗不足,查詢代碼寫得欠佳,沒有WHERE子句或缺少索引引發了不必要的多行讀取,甚至全表掃描,給伺服器帶來了過度的壓力,導致業務執行緩慢,甚至最後伺服器OOM崩潰。

為了避免這種“爆雷”,GaussDB(for MySQL)近期上線了最大讀取行特性。優化器產生執行計劃後,如果優化器預估的讀取行數超過了所設置的最大讀取行閾值,則自動中止查詢,將雷的導火索切斷。

這種機制的優點在於:執行計劃階段就對查詢進行了干預,而不是語句開始執行後在執行過程中進行中斷。既杜絕了劣質查詢對伺服器和業務運行造成的風險,又大大節省了時間和資源。

如何設置最大讀取行

在GaussDB(for MySQL)中,設置rds_max_row_read,指定查詢允許讀取的最大行數。GaussDB(for MySQL)收到查詢指令,執行查詢之前,會對查詢要讀取的行數進行估計。當估值超過所設置的最大讀取行時,將中止查詢,即查詢沒有機會運行,提前規避不必要的資源消耗。

下麵是一份測試數據,說明瞭開啟最大讀取行前後的差異。

假設表t1有4M大小的行,當開發人員或應用程式嘗試運行以下查詢時,運行需要7分鐘。

mysql> SELECT  *  FROM t1;

WHERE子句的缺失致使需要全表掃描,查詢耗時長。對於更大的表,這類查詢將需要更多的耗時,使伺服器消耗更多資源,查詢耗時甚至可能高達數小時。

最大讀取行特性的使用,可以節省寶貴的時間和資源。比如假設將最大讀取行數指定為1000000:

mysql> set rds_max_row_read =1000000;
Query OK, 0 rows affected (0.00 sec)

修改後,重新運行不含WHERE子句的查詢,收到了讀取行超限的提示,查詢被停止。

   mysql> SELECT  *  FROM t1;
ERROR HY000: Expected number of read rows exceeds the maximum allowed (see @@rds_max_row_read)

通過最大讀取行,相當於擁有了一個工具,DBA或者軟體工程師根據業務情況可以自如設置和調整限制規則,保證業務正常運行的同時,限制次優查詢,避免性能異常。

適用範圍

適用於SELECT、CREATE SELECT和INSERT SELECT。

功能開啟

預設情況下,該功能是禁用的,只有當rds_max_row_read設置了值時,該功能才會被激活。

為了功能的穩定,避免無心的錯誤設置對業務造成不必要的影響,rds_max_row_read做了最低值限制,不允許用戶設置比最低值更低的值。

實現原理

GaussDB(for MySQL)通過遍歷每個查詢塊並聚合各查詢塊的貢獻來整體評估查詢的讀取行數:也就是對各join對象的讀取行數評估後累加。

如果在累加評估過程中的某一刻,估計值超過了所設置的限制,查詢將被終止。

對於關聯子查詢,評估辦法為:評估子查詢的讀取行數,然後乘以查詢被執行的次數。

需要特別說明的是,對每個JOIN對象的估計是執行計劃預估返回的行數,可能與真實執行返回的行數有偏差。這雖然是一個相對簡單的評估模型,但是我們堅信其具有足夠的魯棒性。

對於複雜查詢,GaussDB(for MySQL)還通過optimizer trace提供了更多信息以幫助您確定優化器做決策的原因及如何優化查詢。

示例

示例1

mysql> EXPLAIN format=tree SELECT * FROM table_1, table_2;
+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| EXPLAIN                                                                                                                                                                   |
+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| -> Inner hash join (no condition)  (cost=6.50 rows=54)
    -> Table scan on table_1  (cost=0.19 rows=9)
    -> Hash
        -> Table scan on table_2  (cost=0.85 rows=6)
 |
+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
1 row in set (0.00 sec)
mysql> SET rds_max_row_read =20;
Query OK, 0 rows affected (0.00 sec)
mysql> SELECT * FROM table_1, table_2;
ERROR 1888 (HY000): The expected number of read rows exceeds the allowed maximum (see @@rds_max_row_read)

查詢讀取的行太多,我們嘗試在optimizer trace的幫助下尋找原因:

SET optimizer_trace="enabled=on";
SELECT * from table_1, table_2;
SELECT * FROM INFORMATION_SCHEMA.OPTIMIZER_TRACE;

在optimizer trace中,可以找到:

{
            "Max_row_read": {
              "select#": 1,
              "current_estimate_of_rows": 54,
              "rows_contributed_by_this_query_block": 54
            }
          }

這表示此查詢中的唯一查詢塊,行讀取數為54。

執行計劃中的這個評估有多準確呢?

執行如下查詢查看語句實際被執行的次數:

mysql> show status like "handler_read_rnd_next";
+----------------------------+-------+
| Variable_name              | Value |
+----------------------------+-------+
| Handler_read_rnd_next      | 17    |
+----------------------------+-------+
1 rows in set (0.00 sec)

handler_read_rnd_next顯示實際上的讀取是17行,而不是54行。

這個17是怎麼來的呢?

這是一個哈希連接:

-遍歷整張表時,左表有9行數據+1行額外行。

-右表有6行+1行額外行。

優化器中會預估返回讀取行,例如,54。在這個示例中,它並沒有很好地猜測到返回的行數,它高估了行讀取的數量。在大多數情況下,讀取行數的估計不夠精確,但可以肯定的是,它是足夠穩健的,能達到相應的目的。

示例2

創建例表t1:

mysql> CREATE TABLE t1(a INT);

在表中填充1536行數據後。將rds_max_row_read設置為500,進行以下測試查詢:

mysql> SELECT * FROM t1 WHERE a>6;
ERROR HY000: Expected number of read rows exceeds the maximum allowed (see @@rds_max_row_read)

在optimizer trac的幫助下,可以看到優化器估計的讀取行數是512行,因此查詢被終止。如果在a欄位上添加索引(這是一件明智的事情),同一查詢的估計讀取行數是1,查詢檢測順利通過。

這個簡單的示例說明:最大讀取行能幫助您編寫更加優質的查詢語句。

結論

最大讀取行特性針對讀取過多行的查詢,識別和過濾出效率低下的查詢。用戶可以為讀取行數設置閾值,超過該閾值則終止查詢。為了識別此類查詢,GaussDB(for MySQL)在優化器中進行了讀取總行數的粗略估計。當查詢終止時,可以檢查optimizer trace,從中收集線索,以幫助重寫更高效的查詢。

簡而言之,最大讀取行為用戶提供了一個工具,使他們可以更充分地利用手上的資源。

 

點擊關註,第一時間瞭解華為雲新鮮技術~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 本文收集了170多個windows11上的快捷鍵,其中有少部分是windows11新添加的。大部分的win10快捷鍵也適用於win11。這些快捷鍵涵蓋了系統設置、命令行程式執行、Snap佈局切換、對話框快速處理等諸多方面,這裡收錄的是這些分類中最常用的快捷鍵。 編寫博文的過程中,我已驗證了其中90% ...
  • 參考:(25條消息) 虛擬機安裝Arch Linux_虛擬機安裝archlinux_追光少年羽的博客-CSDN博客 準備工作 在開始安裝 Arch Linux 之前,需要先下載安裝映像文件並創建好虛擬機環境。 下載安裝鏡像 下麵是 Arch Linux 官方的安裝文件下載地址: Arch Linux ...
  • 解決辦法 如果最近升級到了 openssh 8.8 版,你會發現連接某些之前連接得好好的伺服器突然無法連接: Unable to negotiate with x.x.x.x port 2222: no matching host key type found. Their offer: ssh-r ...
  • 1. 三值邏輯 1.1. 真 1.1.1. true 1.2. 假 1.2.1. false 1.3. 不確定 1.3.1. unknown 2. 兩種NULL 2.1. 未知”(unknown) 2.1.1. 不知道戴墨鏡的人眼睛是什麼顏色 2.1.2. 雖然現在不知道,但加上某些條件後就可以知道 ...
  • 通過Hbase與Cassandra對比,層次展開瞭解Apache Cassandra特性和使用場景,通過部署但實力和多實例集群進一步理解其運作,最後通過CQL及其客戶端命令工具理解其數據模型和數據類型,通過對鍵空間、表、索引、數據操作熟悉常見CQL語法和使用。 ...
  • 所需準備 1.安裝資料庫實例,如SQLEXPRADV_x64_CHS 2.安裝資料庫管理軟體,如SQL Server Management Studio 操作步驟 1.打開SQL Server Management Studio,使用Windows身份驗證登入。 2.點擊伺服器實例,右鍵屬性->安全 ...
  • Redis資料庫 Redis(Remote Dictionary Server)是一個使用 C 語言編寫的,高性能非關係型的鍵值對資料庫。與傳統資料庫不同的是,Redis 的數據是存在記憶體中的,所以讀寫速度非常快,被廣泛應用於緩存方向。Redis可以將數據寫入磁碟中,保證了數據的安全不丟失,而且Re ...
  • RMAN備份時會記錄每一次備份的狀態信息,例如COMPLETED,FAILED等,但是使用下麵腳本查詢資料庫時,偶爾你會看到有些備份的狀態為COMPLETED WITH WARNINGS SET LINESIZE 1080;COL STATUS FORMAT A9;COL START_TIME FO ...
一周排行
    -Advertisement-
    Play Games
  • Dapr Outbox 是1.12中的功能。 本文只介紹Dapr Outbox 執行流程,Dapr Outbox基本用法請閱讀官方文檔 。本文中appID=order-processor,topic=orders 本文前提知識:熟悉Dapr狀態管理、Dapr發佈訂閱和Outbox 模式。 Outbo ...
  • 引言 在前幾章我們深度講解了單元測試和集成測試的基礎知識,這一章我們來講解一下代碼覆蓋率,代碼覆蓋率是單元測試運行的度量值,覆蓋率通常以百分比表示,用於衡量代碼被測試覆蓋的程度,幫助開發人員評估測試用例的質量和代碼的健壯性。常見的覆蓋率包括語句覆蓋率(Line Coverage)、分支覆蓋率(Bra ...
  • 前言 本文介紹瞭如何使用S7.NET庫實現對西門子PLC DB塊數據的讀寫,記錄了使用電腦模擬,模擬PLC,自至完成測試的詳細流程,並重點介紹了在這個過程中的易錯點,供參考。 用到的軟體: 1.Windows環境下鏈路層網路訪問的行業標準工具(WinPcap_4_1_3.exe)下載鏈接:http ...
  • 從依賴倒置原則(Dependency Inversion Principle, DIP)到控制反轉(Inversion of Control, IoC)再到依賴註入(Dependency Injection, DI)的演進過程,我們可以理解為一種逐步抽象和解耦的設計思想。這種思想在C#等面向對象的編 ...
  • 關於Python中的私有屬性和私有方法 Python對於類的成員沒有嚴格的訪問控制限制,這與其他面相對對象語言有區別。關於私有屬性和私有方法,有如下要點: 1、通常我們約定,兩個下劃線開頭的屬性是私有的(private)。其他為公共的(public); 2、類內部可以訪問私有屬性(方法); 3、類外 ...
  • C++ 訪問說明符 訪問說明符是 C++ 中控制類成員(屬性和方法)可訪問性的關鍵字。它們用於封裝類數據並保護其免受意外修改或濫用。 三種訪問說明符: public:允許從類外部的任何地方訪問成員。 private:僅允許在類內部訪問成員。 protected:允許在類內部及其派生類中訪問成員。 示 ...
  • 寫這個隨筆說一下C++的static_cast和dynamic_cast用在子類與父類的指針轉換時的一些事宜。首先,【static_cast,dynamic_cast】【父類指針,子類指針】,兩兩一組,共有4種組合:用 static_cast 父類轉子類、用 static_cast 子類轉父類、使用 ...
  • /******************************************************************************************************** * * * 設計雙向鏈表的介面 * * * * Copyright (c) 2023-2 ...
  • 相信接觸過spring做開發的小伙伴們一定使用過@ComponentScan註解 @ComponentScan("com.wangm.lifecycle") public class AppConfig { } @ComponentScan指定basePackage,將包下的類按照一定規則註冊成Be ...
  • 操作系統 :CentOS 7.6_x64 opensips版本: 2.4.9 python版本:2.7.5 python作為腳本語言,使用起來很方便,查了下opensips的文檔,支持使用python腳本寫邏輯代碼。今天整理下CentOS7環境下opensips2.4.9的python模塊筆記及使用 ...