ORA-00494: enqueue [CF] held for too long (more than 900 seconds) by 'inst 1, osid 5166'

来源:http://www.cnblogs.com/kerrycode/archive/2016/11/10/6050248.html
-Advertisement-
Play Games

凌晨收到同事電話,反饋應用程式訪問Oracle資料庫時報錯,當時現場現象確認: 1. 應用程式訪問不了資料庫,使用SQL Developer測試發現訪問不了資料庫。報ORA-12570 TNS:packet reader failure 2. 使用lsnrctl status檢查監聽,一直沒有響應,... ...


凌晨收到同事電話,反饋應用程式訪問Oracle資料庫時報錯,當時現場現象確認:

 

1. 應用程式訪問不了資料庫,使用SQL Developer測試發現訪問不了資料庫。報ORA-12570 TNS:packet reader failure

 

2. 使用lsnrctl status檢查監聽,一直沒有響應,這個是極少見的情況。

 

3. 檢查資料庫狀態為OPEN,使用nmon檢查系統資源。如下一張截圖所示,CPU利用率不高,但是CPU Wait%非常高。這意味著I/O不正常。可能出現了IO等待和爭用(IO waits and contention)

    CPU Wait%:顯示採集間隔內所有CPU處於空閑且等待I/O完成的時間比例,Wait%是CPU空閑狀態的一種,當CPU處於空閑狀態而又有進程處於D狀態(不可中斷睡眠)時,系統會統計這時的時間,並計算到Wait%里,Wait%不是一個時間值,而是時間的比例,因此在同樣I/O Wait時間下,伺服器CPU越多,Wait%越低,它體現了I/O操作與計算操作之間的比例。對I/O密集型的應用來說一般Wait%較高.)

clip_image001

 

4.打開郵件發現收到大量的監控告警日誌作業發出的郵件,檢查告警日誌,發現裡面有大量ORA錯誤信息,部分內容如下:

3 | | ORA-00494: enqueue [CF] held for too long (more than 900 seconds) by 'inst 1, osid 5166' 
 
10 | | ORA-00494: enqueue [CF] held for too long (more than 900 seconds) by 'inst 1, osid 5166' 
 
17 | | ORA-00494: enqueue [CF] held for too long (more than 900 seconds) by 'inst 1, osid 5166' 
 
24 | | ORA-00494: enqueue [CF] held for too long (more than 900 seconds) by 'inst 1, osid 5166' 
 
31 | | ORA-00494: enqueue [CF] held for too long (more than 900 seconds) by 'inst 1, osid 5166' 
 
38 | | ORA-00239: timeout waiting for control file enqueue: held by 'inst 1, osid 5166' for more than 900 seconds 
 
41 | | ORA-00494: enqueue [CF] held for too long (more than 900 seconds) by 'inst 1, osid 5166' 
 
48 | | ORA-00239: timeout waiting for control file enqueue: held by 'inst 1, osid 5166' for more than 900 seconds 

 

關於“ORA-00494: enqueue [CF] held for too long (more than 900 seconds).....”這個錯誤,我們先看看這個錯誤的相關描述:

[oracle@DB-Server ~]$ oerr ora 494
 
00494, 00000, "enqueue %s held for too long (more than %s seconds) by 'inst %s, osid %s'"
 
// *Cause: The specified process did not release the enqueue within
 
// the maximum allowed time.
 
// *Action: Reissue any commands that failed and contact Oracle Support
 
// Services with the incident information.
 

 

出現ORA-00494 意味這Instance Crash了,可以參考官方文檔 Database Crashes With ORA-00494 (文檔 ID 753290.1):

 

This error can also be accompanied by ORA-600 [2103] which is basically the same problem - a process was unable to obtain the CF enqueue within the specified timeout (default 900 seconds).

This behavior can be correlated with server high load and high concurrency on resources, IO waits and contention, which keep the Oracle background processes from receiving the necessary resources.

Cause#1: The lgwr has killed the ckpt process, causing the instance to crash.

From the alert.log we can see:

The database has waited too long for a CF enqueue, so the next error is reported:

ORA-00494: enqueue [CF] held for too long (more than 900 seconds) by 'inst 1, osid 38356'

Then the LGWR killed the blocker, which was in this case the CKPT process which then causes the instance to crash.

Checking the alert.log further we can see that the frequency of redo log files switch is very high (almost every 1 min).

Cause#2: Checking the I/O State in the AWR report we find that:

Average Read per ms (Av Rd(ms)) for the database files which are located on this mount point " /oracle/oa1l/data/" is facing I/O issue as per the data collection which was perform

Cause#3: The problem has been investigated in Bug 7692631 - 'DATABASE CRASHES WITH ORA-494 AFTER UPGRADE TO 10.2.0.4'

and unpublished Bug 7914003 'KILL BLOCKER AFTER ORA-494 LEADS TO FATAL BG PROCESS BEING KILLED'

The ORA-00494 error occurs during periods of super-high stress, activity to the point there the server becomes unresponsive due to overloaded disk I/O, CPU or RAM.

 

從上面分析看,這三種原因都存在可能性。但是需要跟多的信息和證據來確認到底是什麼原因導致ORA-00494錯誤, 以至資料庫實例Crash。

 

1:告警日誌裡面有“ORA-00494: enqueue [CF] held for too long (more than 900 seconds) by 'inst 1, osid 5166'” 錯誤,CF指Control file schema global enqueue。如果一個進程在指定的時間(預設900秒)內無法獲得CF鎖,則CF鎖的執行進程會被kill。這個參數為_controlfile_enqueue_timeout

SQL> COL NAME  FOR A45 ;
SQL> COL VALUE FOR A32 ;
SQL> COL DESCR FOR A80 ;
SQL> SELECT x.ksppinm  NAME
  2       , y.ksppstvl VALUE
  3       , x.ksppdesc DESCR
  4  FROM SYS.x$ksppi x, SYS.x$ksppcv y
  5  WHERE x.indx = y.indx
  6  AND x.ksppinm LIKE '%&par%';
Enter value for par: controlfile_enqueue
old   6: AND x.ksppinm LIKE '%&par%'
new   6: AND x.ksppinm LIKE '%controlfile_enqueue%'
 
NAME                                          VALUE                            DESCR
--------------------------------------------- -------------------------------- --------------------------------------------------------------------------------
_controlfile_enqueue_timeout                  900                              control file enqueue timeout in seconds
_controlfile_enqueue_holding_time             120                              control file enqueue max holding time in seconds
_controlfile_enqueue_dump                     FALSE                            dump the system states after controlfile enqueue timeout
_kill_controlfile_enqueue_blocker             TRUE                             enable killing controlfile enqueue blocker on timeout
 
SQL> 

 

 

檢查redo log的切換頻率,發現在2016-11-09 零點到2點,以及2016-11-08 22:00~ 24:00的redo log 切換頻率都很低。排除有大量DML操作的可能性, 根據以上一些分析,我們還不能完全排除Cause#1。我們接著分析其他信息

SELECT 
TO_CHAR(FIRST_TIME,'YYYY-MM-DD') DAY,
TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'00',1,0)),'99') "00",
TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'01',1,0)),'99') "01",
TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'02',1,0)),'99') "02",
TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'03',1,0)),'99') "03",
TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'04',1,0)),'99') "04",
TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'05',1,0)),'99') "05",
TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'06',1,0)),'99') "06",
TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'07',1,0)),'99') "07",
TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'08',1,0)),'99') "08",
TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'09',1,0)),'99') "09",
TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'10',1,0)),'99') "10",
TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'11',1,0)),'99') "11",
TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'12',1,0)),'99') "12",
TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'13',1,0)),'99') "13",
TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'14',1,0)),'99') "14",
TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'15',1,0)),'99') "15",
TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'16',1,0)),'99') "16",
TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'17',1,0)),'99') "17",
TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'18',1,0)),'99') "18",
TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'19',1,0)),'99') "19",
TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'20',1,0)),'99') "20",
TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'21',1,0)),'99') "21",
TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'22',1,0)),'99') "22",
TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'23',1,0)),'99') "23"
FROM
V$LOG_HISTORY
GROUP BY 
TO_CHAR(FIRST_TIME,'YYYY-MM-DD') 
ORDER BY 1 DESC;

clip_image002

 

2:關於 The problem has been investigated in Bug 7692631 - 'DATABASE CRASHES WITH ORA-494 AFTER UPGRADE TO 10.2.0.4'

and unpublished Bug 7914003 'KILL BLOCKER AFTER ORA-494 LEADS TO FATAL BG PROCESS BEING KILLED'

 

告警日誌裡面出現ORA-00239,但是沒有出現ORA-603、ORA-00470之類的錯誤。按照官方文檔Disk I/O Contention/Slow Can Lead to ORA-239 and Instance Crash (文檔 ID 1068799.1)

I/O contention or slowness leads to control file enqueue timeout.

One particular situation that can be seen is LGWR timeout while waiting for control file enqueue, and the blocker is CKPT :

From the AWR:

1) high "log file parallel write" and "control file sequential read" waits

2) Very slow Tablespace I/O, Av Rd(ms) of 1000-4000 ms (when lower than 20 ms is acceptable)

3) very high %iowait : 98.57%.

4) confirmed IO peak during that time

Please note: Remote archive destination is also a possible cause. Networking issues can also cause this type of issue when a remote archive destination is in use for a standby database.

這台伺服器已經正常運行了很多年,所以我們更傾向是IO問題導致。結合當時CPU Wait%非常高。這意味著可能出現了嚴重的IO等待和爭用(IO waits and contention)

 

3:我們來看看監控工具OSWather生成這段時間的一些報告,如下,CPU資源非常空閑

 

Operating System CPU Utilization

clip_image003

 

CPU等待IO資源(Wait IO)也是從10:45 PM(22:45)之後變大。CPU利用率一直不高,最多20%多的樣子。

 

clip_image004

 

Operating System CPU Other

clip_image005

 

然後,我們看看Operating System I/O吧,如下截圖所示,可以看出在11點開始,系統IO設備非常繁忙 由此我們可以判斷IO異常導致資料庫出現ORA-00494錯誤的可能性很大。

 

Operating System I/O

clip_image006

clip_image007

 

Operating System I/O Throughput

clip_image008

clip_image009

 

然後我們檢查一下操作系統的日誌,如下所示:

 

clip_image010

 

如下截圖所示,“INFO: task kjournald:xxx blocked for more than 120 seconds.”從23:22開始,在這之前,出現大量這類日誌信息。這個是因為PlateSpin的作業複製導致(後面確認該作業在22:40啟動)。所以至此,我們更傾向是因為第二個源於引起資料庫Instance Crash。後面和系統管理員確認,PlateSpin的複製作業也是失敗了。所以種種分析,非常懷疑是PlateSpin的作業引起了IO異常。而IO發生短暫或長時間停止響應的時候,就導致資料庫實例崩潰。

 

clip_image011

clip_image012

clip_image013

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Kafka Consumer 通過之前的架構介紹,對Consumer有了一個初步的瞭解。這裡再深入一點來瞭解一下Consumer。 1、Consumer Group與Topic訂閱 1.1 Consumer與partition 1.2 Consumer與Consumer Group 1.3 Coor ...
  • 第一步:打開sql service 找到 SQL SERVER Agent 下的 jobs 如圖: 註:如果沒有找到,請查看你安裝sql service 的版本 通過 select @@VERSION查看 本人安裝版本為:Microsoft SQL Server 2014 - 12.0.4100.1 ...
  • 回到目錄 空間與時間 空間換時間是在資料庫中經常出現的術語,簡單說就是把查詢需要的條件進行索引的存儲,然後查詢時為O(1)的時間複雜度來快速獲取數據,從而達到了使用空間存儲來換快速的時間響應!對於redis這個k/v存儲系統來說,複雜的查詢不是它所建議的,它的優勢在於通過key快速定位數據,它定位數 ...
  • 成功排除故障的十個步驟1.定義問題,建立一個清晰的問題陳述,目標是獲取技術問題和成功標準的一兩句摘要。2.確定問題的影響,企業利益相關者不會知道技術細節,你需要確定問題所造成的財物影響。3.占用正確的資源,可能是內部資源或者外部資源,以便問題得到有效的技術和人力支持。4.確定潛在的原因,會見所有必要 ...
  • 添加環境變數解決: 變數名:TNS_ADMIN 變數值:D:\Ocl\product\11.2.0\dbhome_1\NETWORK\ADMIN tnsnames.ora所在的路徑 ...
  • http://blog.csdn.net/lgb934/article/details/8662956 ...
  • InfluxDB提供類SQL語法,如果熟悉SQL的話會非常容易上手。本文就為大家介紹一下InfluxDB的基本操作。 InfluxDB提供類SQL語法,如果熟悉SQL的話會非常容易上手。 本文就為大家介紹一下InfluxDB的基本操作,更多InfluxDB詳細教程請看:InfluxDB系列學習教程目 ...
  • --查看資料庫版本-- select * from product_component_version; -- 查看dbf存放位置 select * from dba_data_files; -- 查看文件位置 SELECT * FROM dba_directories; -- 新建表空間 crea ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...