PostgreSQL初體驗及其與MySQL的對比

SpringData是Spring中數據操作的模塊，包含對各種資料庫的集成，其中對Redis的集成模塊就叫做SpringDataRedis。技術支持提供了對不同Redis客戶端的整合（Lettuce和Jedis）提供了RedisTemplate統一API來操作Redis 支持Redis的發佈訂 ...

因為工作的原因接觸到了pgsql資料庫，對PostgreSQL的體系和運維操作也有了一定的瞭解。PostgreSQL在官網上標稱為世界上最先進的開源資料庫，而MySQL在官網上標稱的是世界上最流行的開源資料庫，可見PostgresSQL還是比較高調的。

一、PostgreSQL初體驗

首先是資料庫的安裝，PostgreSQL官網上不像MySQL那樣提供了二進位包的下載，PostgreSQL主要提供了RPM包下載和源碼下載，通常使用源碼編譯安裝，安裝步驟相對比較簡單：

######postgres單實例安裝
1、官網下載源碼包：https://www.postgresql.org/ftp/source/v14.8/

2、解壓
tar -xvf postgresql-14.0.tar.gz

3、新建postgres用戶
groupadd postgres
useradd -g postgres postgres

4、安裝依賴包
yum install *zlib*
yum install *libreadline*

5、編譯安裝
./configure
make && make install

6、修改安裝目錄所屬用戶組
chown -R postgres:postgres /usr/local/pgsql

7、新建postgresql的數據目錄
mkdir /pgdata
chown postgres:postgres /pgdata

8、配置環境變數
su - postgres
vi ~/.bash_profile
export PATH=$PATH:/usr/local/pgsql/bin

9、初始化資料庫
initdb -D /pgdata

10、啟動資料庫
pg_ctl -D /pgdata start

11、驗證是否可登錄
psql

安裝完成後，會自動在數據目錄下麵生成配置文件，根據實際情況首先需要修改配置文件postgresql.conf和訪問控制文件pg_hba.conf。修改完後通過pg_ctl命令重啟PG。

#####配置文件postgresql.conf
#connection control
listen_addresses = '*'  #不限制連接ip
max_connections = 1000
superuser_reserved_connections = 10 #為超級用戶保留的連接數

#memory management      
shared_buffers = 512MB    #推薦操作系統物理記憶體的1/4                          
work_mem = 8MB        #單個查詢操作(例如排序或哈希表)可使用的最大記憶體                 
maintenance_work_mem = 512MB       #維護性操作（例如VACUUM、CREATE INDEX和ALTER TABLE ADD FOREIGN KEY）中使用的最大的記憶體  
max_files_per_process = 24800           
effective_cache_size = 1GB   #推薦操作系統物理記憶體的1/2

#log optimization
log_destination = 'csvlog'             
logging_collector = on          
log_directory = '/pgdata/logs'        # 日誌存放路徑，提前規劃在系統上創建好 
log_truncate_on_rotation = on       


#####訪問控制文件pg_hba.conf加上下麵這行
host    all             all             0.0.0.0/0               md5

PostgreSQL通過WAL日誌進行主從同步，不同於MySQL通過binlog進行邏輯複製。並且PostgreSQL 在9.x之後引入了主從的流複製機制，所謂流複製，就是備伺服器通過tcp流從主伺服器中同步相應的數據，主伺服器在WAL記錄產生時即將它們以流式傳送給備伺服器，而不必等到WAL文件被填充。主從複製搭建的具體步驟可以參考如下：

#####主從同步配置
主庫創建同步賬號
CREATE ROLE replica login replication encrypted password 'Temp##2022';

主庫修改pg_hba.conf增加從庫訪問控制
host    replication     replica         10.2.111.192/32         md5

主庫重啟
pg_ctl -D /pgdata restart

停止從庫
pg_ctl stop -D /pgdata

清空從庫數據文件
rm -rf  /pgdata/*

從庫拉取主庫數據文件
pg_basebackup -h 10.2.111.192 -D /pgdata -p 5432 -U replica -Fp -Xs -Pv -R --checkpoint=fast

從庫postgresql.conf文件添加主庫信息
primary_conninfo = 'host=10.2.111.193 port=5432 user=replica password=Temp##2022'

啟動從庫
pg_ctl start -D /pgdata

主庫驗證主從同步正常
select client_addr,usename,backend_start,application_name,sync_state,sync_priority FROM pg_stat_replication;

備庫提升為主庫
pg_ctl promote -D /pgdata
pg_controldata -D /pgdata | grep cluster  #檢查資料庫狀態，為in production，說明備庫已提升為主庫

在PostgreSQL的資料庫邏輯存儲架構中，採用的是database-schema-table這樣一個三層的架構，和SQLServer一樣，SQLServer預設的模式是dbo，PostgresSQL中預設的模式是public。其實大多數應用中，database-table這樣兩層的架構足夠了，三層架構感覺還是複雜了一些。每個database下麵有兩個預設的系統schema：pg_catalog和information_schema，pg_catalog下麵的表主要描述的是pg實例的配置信息，information_schema下麵的表主要描述的當前database的數據字典信息。比如要查詢當前database下麵所有的表可以通過information_schema.tables表查詢。在用戶管理方面，PostgreSQL中角色的概念影響較深，用戶即角色，創建角色的時候指定login屬性即代表創建同名的用戶。

二、PostgreSQL與MySQL對比

1. 開源協議

PostgreSQL採用的是寬鬆的BSD開源協議，基於開源PostgreSQL代碼封裝成的軟體可以不公開源代碼，它也不強制任何特定的版權聲明，這使得它與許多其他開源和專有許可證相容。基於這一點，很多國產資料庫廠商採用了基於開源PG二次開發的資料庫選型方案，華為的opengauss就是基於PG9版本，而vastbase、mogdb又是基於opengauss，也可以認為是PostgreSQL系列的產品。

MySQL採用的是較為嚴格的GPLv2開源協議，該協議具有強傳染性，這意味著任何基於GPLv2 許可的代碼進行修改或擴展，並且要分發的派生作品，也必須在GPLv2開源協議下發佈，長期來看，具有傳染性的GPLv2開源協議更能把成果回饋社區，帶動社區的發展。國內基於MySQL的幾款資料庫TDSQL、GoldenDB在目前的國內的國產資料庫份額中占有相當一部分比例，特別是在銀行業。但是好像從來沒有見過他們的開源版本，這個要較真起來很可能是違反開源協議的。

2. 表組織形式

PostgreSQL底層的表組織形式採用的是堆表（heap table），在堆表中數據的按數據插入的順序進行排序，索引指向堆中行的指針（CTID），而不是實際的行數據。MySQL底層的表組織形式採用的是索引組織表（IOT），索引組織表中數據按主鍵或唯一索引進行排序，數據存儲在主鍵索引的葉子節點中。對於基於主鍵索引查詢的SQL語句，索引組織表不需要回表，性能更佳。

可能大家覺得堆表對於寫入的性能會更高效，畢竟堆表中數據可以迅速地添加到表的末尾，不需要重新排序或調整數據，不需要像IOT那樣頻繁地對數據頁進行合併或分裂來維護B+樹結構，但其實生產環境中一個表可能會有多個索引，對於PostgreSQL的B+樹索引的維護同樣會帶來很多開銷。所以那種表組織形式更好還需要看業務場景，通常來說索引組織表更適合於OLPT場景，堆表在OLAP場景中表現更好。

3. MVCC實現機制

MVCC實現機制和更新方式是一個問題，PostgreSQL採用的是異地更新（out-of-place update），它沒有undo表空間，PostgreSQL將歷史元組和最新元組都保存在Heap表中，這種方式的好處是無須做回滾操作，因此PostgreSQL的堆表需要存儲多個行版本數據。但是，假設事務不停地更新數據，那麼一條元組就會產生大量的歷史版本。其他事務在訪問時需要查看這些元組是否滿足可見性要求，這會增加讀操作的時延，降低數據掃描的效率。為了防止數據膨脹，PostgreSQL資料庫採用Vacuum機制清理表中的無效元組，PostgreSQL預設會打開auto vacuum機制。

MySQL、ORACLE採用的都是原地更新（in-place update），如果事務更新了一條元組，它可以“原地”更新這條元組，歷史元組會以Undo日誌記錄的形式保存到回滾段中，這樣就實現了元組的原地更新（Inplace Update）。當有併發事務需要訪問歷史元組時，可以從回滾段中“回滾”出這條元組，如果事務異常終止，則可以利用Undo日誌將數據恢復。當所有可能訪問歷史元組的事務全部結束後，Undo日誌中的歷史元組就可以被清理。由於Undo日誌被集中存儲到某一個回滾段，所以清理也較為便捷。

4. 多進程VS多線程

PostgreSQL採用的是多進程架構。優點主要在穩定性方面：在於每個連接都有自己的進程，一個進程崩潰不太會影響其他的進程，並且每個進程都有自己的記憶體空間，這可以減少記憶體泄漏或其他問題對整個系統的影響；缺點在於資源消耗更高：由於每個進程都有自己的記憶體空間，這可能導致更高的記憶體使用，並且進程間的上下文切換和進程間的通信開銷更大。

MySQL採用的是多線程架構。優點在於資源消耗更低：線程共用相同的記憶體空間，這通常導致更低的記憶體使用和更快的上下文切換。並且多線程可以更好的適用多核CPU架構處理高併發問題。多線程架構在穩定性方面不如多進程，一個線程的問題可能會影響到同一進程中的其他線程。