MySQL大量線程處於Opening tables的問題分析

来源:https://www.cnblogs.com/CtripDBA/archive/2019/01/22/10304856.html
-Advertisement-
Play Games

【作者】 王棟:攜程技術保障中心資料庫專家,對資料庫疑難問題的排查和資料庫自動化智能化運維工具的開發有強烈的興趣。 【問題描述】 最近有一臺MySQL5.6.21的伺服器,在應用發佈後,併發線程Threads_running迅速升高,達到2000左右,大量線程處於等待Opening tables、c ...


【作者】

王棟:攜程技術保障中心資料庫專家,對資料庫疑難問題的排查和資料庫自動化智能化運維工具的開發有強烈的興趣。

【問題描述】

最近有一臺MySQL5.6.21的伺服器,在應用發佈後,併發線程Threads_running迅速升高,達到2000左右,大量線程處於等待Opening tables、closing tables狀態,應用端相關邏輯訪問超時。

【分析過程】

1、16:10應用發佈結束後,Opened_tables不斷增加,如下圖所示:

查看當時故障期間抓取的pt-stalk日誌文件,時間點2019-01-18 16:29:37,Open_tables 的值為3430,而table_open_cache的配置值為2000。
當Open_tables值大於table_open_cache值時,每次新的session打開表,有一些無法命中table cache,而不得不重新打開表。這樣反應出來的現象就是有大量的線程處於opening tables狀態。

2、這個實例下的表,加上系統資料庫下總計851張,遠小於table_open_cache的2000,為什麼會導致Open_tables達到3430呢
從官方文檔中可以得到解釋,
https://dev.mysql.com/doc/refman/5.6/en/table-cache.html

table_open_cache is related to max_connections. For example, for 200 concurrent running connections, specify a table cache size of at least 200 * N, where N is the maximum number of tables per join in any of the queries which you execute.
當時併發線程數達到1980,假設這些併發連接中有30%是訪問2張表,其他都是單表,那麼cache size就會達到(1980*30%*2+1980*70%*1)=2574

3、QPS在發佈前後都比較平穩,從外部請求來看並沒有突增的連接請求,但在發佈後threads_running上升到接近2000的高位,一直持續。猜測是由於某個發佈的SQL語句觸發了問題。

4、查看當時抓取的processlist信息,有一句SQL併發訪問很高,查詢了8張物理表,SQL樣本如下:

select id,name,email from table1 left join table2
union all
select id,name,email from table3 left join table4
union all
select id,name,email from table5 left join table6
union all
select id,name,email from table7 left join table8
where id in ('aaa');

5、在測試環境中創建相同的8張表,清空表緩存,單個session執行SQL前後對比,Open_tables的值會增加8,如果高併發的情況下,Open_tables的值就會大幅增加。

【問題重現】

在測試環境上模擬高併發訪問的場景,併發1000個線程同時執行上面的SQL語句,復現了生產環境類似的現象,Open_tables迅速達到3800,大量進程處於Opening tables、closing tables狀態。

【優化方案】

1、 定位到問題原因後,我們與開發同事溝通,建議優化該SQL,降低單句SQL查詢表的數量或大幅降低該SQL的併發訪問頻率。
不過開發同事還沒來的及優化,生產環境上故障又出現了。當時DBA排障時將table_open_cache從2000增加4000,CPU使用率上升,效果並不明顯,等待Opening tables的問題依然存在。

2、 分析故障期間抓取的pstack信息,用pt-pmp聚合後,看到大量線程在open_table時等待mutex資源:

#0  0x0000003f0900e334 in __lll_lock_wait () from /lib64/libpthread.so.0
#1  0x0000003f0900960e in _L_lock_995 () from /lib64/libpthread.so.0
#2  0x0000003f09009576 in pthread_mutex_lock () from /lib64/libpthread.so.0
#3  0x000000000069ce98 in open_table(THD*, TABLE_LIST*, Open_table_context*) ()
#4  0x000000000069f2ba in open_tables(THD*, TABLE_LIST**, unsigned int*, unsigned int, Prelocking_strategy*) ()
#5  0x000000000069f3df in open_normal_and_derived_tables(THD*, TABLE_LIST*, unsigned int) ()
#6  0x00000000006de821 in execute_sqlcom_select(THD*, TABLE_LIST*) ()
#7  0x00000000006e13cf in mysql_execute_command(THD*) ()
#8  0x00000000006e4d8f in mysql_parse(THD*, char*, unsigned int, Parser_state*) ()
#9  0x00000000006e62cb in dispatch_command(enum_server_command, THD*, char*, unsigned int) ()
#10 0x00000000006b304f in do_handle_one_connection(THD*) ()
#11 0x00000000006b3177 in handle_one_connection ()
#12 0x0000000000afe5ca in pfs_spawn_thread ()
#13 0x0000003f09007aa1 in start_thread () from /lib64/libpthread.so.0
#14 0x0000003f088e893d in clone () from /lib64/libc.so.6

這時table_cache_manager中的mutex衝突非常嚴重。
由於MySQL5.6.21下table_open_cache_instances參數的預設值為1,想到增大table_open_cache_instances參數,增加表緩存分區,應該可以緩解爭用。

3、 在測試環境上,我們調整兩個參數table_open_cache_instances=32,table_open_cache=6000,同樣併發1000個線程執行問題SQL,這次等待Opening tables、closing tables的線程消失了,MySQL的QPS也從12000上升到55000。
對比相同情況下,只調整table_open_cache=6000,等待Opening tables的進程數從861下降到203,問題有所緩解,有600多個進程已經從等待Opening tables變為運行狀態,QPS上升到40000左右,但不能根治。

【源碼分析】

查了下代碼有關table_open_cache的相關邏輯:
1、Table_cache::add_used_table函數如下,當新的連接打開的表在table cache中不存在時,打開表加入到used tables list:

bool Table_cache::add_used_table(THD *thd, TABLE *table)
{
  Table_cache_element *el;

  assert_owner();

  DBUG_ASSERT(table->in_use == thd);

  /*
    Try to get Table_cache_element representing this table in the cache
    from array in the TABLE_SHARE.
  */
  el= table->s->cache_element[table_cache_manager.cache_index(this)];

  if (!el)
  {
    /*
      If TABLE_SHARE doesn't have pointer to the element representing table
      in this cache, the element for the table must be absent from table the
      cache.

      Allocate new Table_cache_element object and add it to the cache
      and array in TABLE_SHARE.
    */
    DBUG_ASSERT(! my_hash_search(&m_cache,
                                 (uchar*)table->s->table_cache_key.str,
                                 table->s->table_cache_key.length));

    if (!(el= new Table_cache_element(table->s)))
      return true;

    if (my_hash_insert(&m_cache, (uchar*)el))
    {
      delete el;
      return true;
    }

    table->s->cache_element[table_cache_manager.cache_index(this)]= el;
  }

  /* Add table to the used tables list */
  el->used_tables.push_front(table);

  m_table_count++;

  free_unused_tables_if_necessary(thd);

  return false;
}

2、每次add_used_table會調用Table_cache::free_unused_tables_if_necessary函數,當滿足m_table_count > table_cache_size_per_instance &&m_unused_tables時,執行remove_table,清除m_unused_tables列表中多餘的cache。其中table_cache_size_per_instance= table_cache_size / table_cache_instances,MySQL5.6的預設配置是2000/1=2000,當m_table_count值大於2000並且m_unused_tables非空時就執行remove_table,將m_unused_tables中的table cache清空。這樣m_table_count就是Open_tables的值正常會維持在2000上下。

void Table_cache::free_unused_tables_if_necessary(THD *thd)
{
  /*
    We have too many TABLE instances around let us try to get rid of them.

    Note that we might need to free more than one TABLE object, and thus
    need the below loop, in case when table_cache_size is changed dynamically,
    at server run time.
  */
  if (m_table_count > table_cache_size_per_instance && m_unused_tables)
  {
    mysql_mutex_lock(&LOCK_open);
    while (m_table_count > table_cache_size_per_instance &&
           m_unused_tables)
    {
      TABLE *table_to_free= m_unused_tables;
      remove_table(table_to_free);
      intern_close_table(table_to_free);
      thd->status_var.table_open_cache_overflows++;
    }
    mysql_mutex_unlock(&LOCK_open);
  }
}

3、增大table_cache_instances為32,當Open_tables超過(2000/32=62)時,就會滿足條件,加速上述邏輯中m_unused_tables的清理,使得table cache中數量進一步減少,會導致Table_open_cache_overflows升高。

4、當table_open_cache_instances從1增大到32時,1個LOCK_open鎖分散到32個m_lock的mutex上,大大降低了鎖的爭用。

/** Acquire lock on table cache instance. */
  void lock() { mysql_mutex_lock(&m_lock); }
  /** Release lock on table cache instance. */
  void unlock() { mysql_mutex_unlock(&m_lock); }

【解決問題】

我們生產環境同時採取下麵優化措施,問題得以解決:
1、 讀寫分離,增加read節點,分散master庫的壓力;
2、 調整table_open_cache_instances=16;
3、 調整table_open_cache=6000;

【總結】

當出現Opening tables等待問題時,
1、建議找出打開表頻繁的SQL語句,優化該SQL,降低單句SQL查詢表的數量或大幅降低該SQL的併發訪問頻率。

2、設置合適的table cache,同時增大table_open_cache_instances和 table_open_cache參數的值。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • #日期時間 echo '日期時間' datetime=$(date "+%Y-%m-%d %H:%M:%S") echo "$datetime" ...
  • 前言 開心一刻 和朋友去吃小龍蝦,隔壁桌一個小女孩問媽媽:"媽媽,小龍蝦回不了家,它媽媽會不會著急?" 她媽媽愣住了,我扒蝦的手停下了,這麼善良的問題,怎麼下得了口。這是老闆急忙過來解圍:"不會的,不會的,它們全家都在這了。" 路漫漫其修遠兮,吾將上下而求索! github:https://gith ...
  • 創建資料庫架構註意事項 包含 CREATE SCHEMA AUTHORIZATION 但未指定名稱的語句僅允許用於向後相容性。 該語句未引起錯誤,但未創建一個架構。 包含 CREATE SCHEMA AUTHORIZATION 但未指定名稱的語句僅允許用於向後相容性。 該語句未引起錯誤,但未創建一個 ...
  • 關鍵字:MongoDB; aggregate;forEach 今天開發同學向我們提了一個緊急的需求,從集合mt_resources_access_log中,根據欄位refererDomain分組,取分組中最近一筆插入的數據,然後將這些符合條件的數據導入到集合mt_resources_access_l ...
  • SSIS導入Excel時記錄行號 1. "Excel源"後添加"腳本組件" 2. "腳本組件"中新增輸出列,命名為"RowNumber" 3. "腳本組件"中編輯腳本. 4. 腳本如下. 5. 下一步的輸入列中顯示RowNumber 6. 結果. 參考鏈接: 1. https://support.m ...
  • alter add命令用來增加表的欄位。alter add命令格式:alter table 表名 add欄位 類型 其他;例如,在表MyClass中添加了一個欄位passtest,類型為int(4),預設值為0: mysql> alter table MyClass add passtest int ...
  • 許可權的管理: 如何創建用戶和密碼 給當前的用戶授權 移除當前用戶的許可權 首先進去到mysql資料庫下: 其次, 對新用戶進行增刪改: 接著, 對當前的用戶進行授權 ...
  • 1. IDE工具介紹(Navicat) 為了方便測試,使用IDE工具,就是Navicat,這個工具本質上就是一個socket客戶端,可視化的連接mysql服務端的一個工具,並且是圖形界面版的。它和直接使用命令行的區別就類似linux和windows系統操作起來的一個區別。 Navicat下載連接:h ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...