greenplum集群某台機器磁碟占用100%處理方式

-Advertisement-

一、問題描述使用gpfdist往集群中導入大量數據，一段時間後連接退出，集群無法連接二、問題定位使用如下命令查看：連接到相應機器，查看磁碟狀況：說明此時磁碟占用滿了。三、問題解決處理這種情況有如下幾種方式： 3.1 擴容磁碟由於本人是將數據目錄直接放在根目錄下，可以通過添加一塊新磁 ...

一、問題描述

使用gpfdist往集群中導入大量數據，一段時間後連接退出，集群無法連接

二、問題定位

使用如下命令查看：

gpstate -s
mdw-1:gpadmin-[INFO]:-   Segment Info
mdw-1:gpadmin-[INFO]:-      Hostname                          = sdw-1
mdw-1:gpadmin-[INFO]:-      Address                           = sdw-1
mdw-1:gpadmin-[INFO]:-      Datadir                           = /home/mirror/gpseg2
mdw-1:gpadmin-[INFO]:-      Port                              = 50000
mdw-1:gpadmin-[INFO]:-   Mirroring Info
mdw-1:gpadmin-[INFO]:-      Current role                      = Mirror
mdw-1:gpadmin-[INFO]:-      Preferred role                    = Mirror
mdw-1:gpadmin-[WARNING]:-   Mirror status                     = Out of Sync                    <<<<<<<<
mdw-1:gpadmin-[INFO]:-   Status
mdw-1:gpadmin-[INFO]:-      PID                               = 10227
mdw-1:gpadmin-[WARNING]:-   Configuration reports status as   = Down                           <<<<<<<<
mdw-1:gpadmin-[WARNING]:-   Segment status                    = Down in configuration          <<<<<<<<

連接到相應機器，查看磁碟狀況：

說明此時磁碟占用滿了。

三、問題解決

處理這種情況有如下幾種方式：

3.1 擴容磁碟

由於本人是將數據目錄直接放在根目錄下，可以通過添加一塊新磁碟的方式直接擴容空間

3.2 清理文件

往往，線上的環境不會有足夠的時間進行磁碟的擴容，甚至一些其他因素導致根本你就接觸不到伺服器。那麼這時候只能進行文件的清除。

3.2.1 清理日誌文件

系統長時間運行後，一般占用比較大的會是pg_log文件夾下日誌文件，這裡推薦的做法是日誌文件的磁碟和數據目錄掛載在不同的磁碟路徑下，若在同一路徑下，可將日誌文件備份到其他路徑，騰出一部分空間，讓系統正常啟動。操作如下：

1）使用gpstop停止集群

2）處理日誌文件移動到其他位置，或者認為可以不要的直接刪除

3）gpstart啟動集群，啟動後就可以將一些頻繁變化的表執行 vacuum動作，或者刪除一些無用的表

4）若以上動作做完，並不能釋放出空間，則需要考慮下一種方法

3.2.2 清理pg_xlog文件

在segment下，會有pg_xlog文件夾，這個文件夾里存儲的是wal日誌信息，記錄事務信息，類似oracle的redo日誌,數據在進入greenplum資料庫前，都是先進入到該日誌文件中，所以該文件非常重要，千萬不能手工操作該目錄下的文件，如果直接手工刪除了該文件，資料庫就無法啟動。所以刪除該文件要謹慎，可以使用該命令：pg_resetxlog 。只有在xlog占用了大量空間的情況下才考慮清理，否則不建議清理。操作步驟：

1）停止greenplum集群

2）使用pg_controldata命令

pg_controldata $segment_directory
......
Latest checkpoint's NextXID:          0/1874
Latest checkpoint's NextOID:          111252
......

這裡$segment_directory是安裝集群是的segment目錄，也就是gpstate -s命令看到的路徑，如果找不到可以搜索pg_control，該文件所在的位置即為需要的目錄位置通過上述命令獲取到標紅的兩處關鍵性信息

3）執行如下命令：

pg_resetxlog -o 111252 -x 1874 -f $segment_directory

註意，以上命令需要資料庫管理員賬戶執行，上述命令完成後，能夠有不少的空間釋放出來。

4）啟動greenplum集群

四、實踐建議

1、清理xlog日誌是在不得已的情況下才這麼做，待集群正常啟動後，需要謹慎驗證數據的完整性

2、需要有自己的一套監控機制監控磁碟使用率，儘可能的避免磁碟使用100%的情況發生，一旦由於這種情況導致了集群崩潰，甚至丟失數據，可能是災難性的

3、如果是由於誤刪了pg_logs的文件導致集群無法啟動，也可以使用pg_resetxlog命令使集群恢復啟動，但一定要謹慎驗證數據的完整性

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

淺談Linux下mv和cp命令的區別

1、功能上的區別 mv：用戶可以使用該命令為文件或目錄重命名或將文件由一個目錄移入另一個目錄中。 cp: 該命令的功能是將給出的文件或目錄拷貝到另一文件或目錄中。 2、從inode角度來區分 mv：會將存儲於indoe索引節點上的文件元信息也移動到新文件中。 cp : 只會複製文件數據，不會複製in ...
Supervisor安裝、配置、開啟啟動

1、安裝Python包管理工具（easy_install） wget --no-check-certificate https://bootstrap.pypa.io/ez_setup.py -O - | sudo python 2、安裝supervisor easy_install supervi ...
mysql學習之完整的select語句

本文內容：完整語法去重選項欄位別名數據源 where group by having order by limit 首發日期：2018-04-11 完整語法： select 去重選項欄位列表 [as 欄位別名] from 數據源 [where子句] [group by 子句] [havin... ...
Oracle的基本語法，存儲函數及觸發器

1.PL/SQL PL/SQL是Oracle對 ql語言的過程化擴展，指在 SQL 命令語言中增加了過程處理語句，使SQL語言具有過程處理能力。把 SQL 語言的數據操縱能力與過程語言的數據處理能力結合起來，使得 PLSQL 面向過程但比過程語言簡單、高效、靈活和實用。基本語法結構: [decl ...
MongoDB系列四（索引）.

一、索引簡介再來老生常談一番，什麼是索引呢？資料庫索引與書籍的索引類似。有了索引就不需要翻整本書，資料庫可以直接在索引中查找，在索引中找到條目以後，就可以直接跳轉到目標文檔的位置，這能使查找速度提高幾個數量級。然而，使用索引是有代價的：對於添加的每一個索引，每次寫操作（插入、更新、刪除）都將耗費 ...
oracle安裝配置

yum groupinstall "X Window System" 啟動 vncserver 添加用戶 groupadd oinstall groupadd dba useradd -g oinstall -G dba oracle passwd oracle 修改內核 /etc/sysctl.c ...
MySQL 5.7 跟蹤優化器

Welcome to the MySQL monitor. Commands end with ; or \g.Your MySQL connection id is 5Server version: 5.7.12 MySQL Community Server (GPL)Copyright (c) ...
[HDFS Manual] CH8 HDFS Snapshots

HDFS Snapshots HDFS Snapshots. 1 1. 概述... 1 1.1 Snapshottable目錄... 1 1.2 快照路徑... 1 2. 帶快照的更新... 1 3. 快照操作... 1 3.1 管理操作... 1 3.2 用戶操作... 1 1. 概述 HDFS快 ...