Linux系統內核參數優化 在工作中,平常我們使用官方鏡像安裝的Linux系統(非自定製化的)系統內核考慮的是最通用的場景,通常設定都偏向穩定保守,比較典型的代表如紅帽系列的RHEL、CentOS等。而在正式的生成環境使用中,伺服器的CPU、記憶體等硬體配置都比較高,而安裝系統時預設的系統內核參數設定 ...
Linux系統內核參數優化
在工作中,平常我們使用官方鏡像安裝的Linux系統(非自定製化的)系統內核考慮的是最通用的場景,通常設定都偏向穩定保守,比較典型的代表如紅帽系列的RHEL、CentOS等。而在正式的生成環境使用中,伺服器的CPU、記憶體等硬體配置都比較高,而安裝系統時預設的系統內核參數設定並不符合用於支持高併發訪問的業務伺服器,因此我們需要根據實際的業務特性來對系統的預設內核參數設定加以優化,以便能充分發揮伺服器的硬體計算處理能力,提高資源利用率的同時也給企業節省IT設備資源成本。
以centos為例,可以通過vim /etc/sysctl.conf 文件來更改內核參數,可使用sysctl -p命令立即生效。
Linux系統常用的內核參數及定義總結如下:
以下內核參數配置僅供參考,具體使用應當根據業務環境特性及伺服器硬體配置來設置合理的值。
net.ipv4.ip_nonlocal_bind = 1
#允許非本地IP地址socket監聽,當主機作為網關、反向代理或負載均衡器實現雙機熱備高可用時,主機需要綁定監聽虛擬VIP地址時,必須開啟此項。
net.ipv4.ip_forward = 1
#開啟IPv4轉發。當伺服器作為路由網關、反向代理與負載均衡(開啟客戶端IP透傳時)必須開啟。
net.ipv4.tcp_timestamps = 1
#開啟TCP時間戳,以一種比重發超時更精確的方法(請參閱 RFC 1323)來啟用對 RTT 的計算;為了實現更好的性能應該啟用這個選項。預設為0不啟用。
fs.file-max = 6553560
#系統所有進程一共可以打開的文件數量,即系統當前最大的文件句柄數,屬於系統級別的限制,預設值大小通常與系統物理記憶體有關。註意:ulimit的open file值(預設1024)是單個進程可以打開的最大文件數,在高併發業務下,這個2個值都需要進行調整。
net.ipv4.tcp_tw_reuse = 1
#預設為0不啟用,設置為1啟用tcp復用,表示允許將TIME_WAIT狀態的socket重新用於新的TCP鏈接,這對於高併發的伺服器來說意義重大,因為總有大量TIME_WAIT狀態的鏈接存在。
net.ipv4.tcp_tw_recycle = 1
#預設為0表示關閉,為1時表示開啟TCP連接中TIME-WAIT sockets的快速回收,用於大量TIME_OUT場景。
net.ipv4.tcp_keepalive_time = 600
#當keepalive啟用時,TCP發送keepalive消息的頻度;預設是2小時,將其設置為10分鐘,可更快的清理無效鏈接。
net.ipv4.tcp_keepalive_probes = 3
#當keepalive啟用時,如果對方不予應答,探測包的發送次數。
net.ipv4.tcp_keepalive_intvl = 15
#當keepalive啟用時,keepalive探測包的發送間隔,單位為秒。
net.ipv4.tcp_fin_timeout = 30
#當伺服器主動關閉鏈接時,socket保持在FIN_WAIT_2狀態的最長時間,單位為秒。
net.ipv4.tcp_syn_retries = 1
#在內核放棄建立連接之前發送SYN包的數量
net.ipv4.tcp_syncookies = 1
#與性能無關,用於解決TCP的SYN攻擊。1表示開啟TCP SYN Cookies。當出現SYN等待隊列溢出時,啟用cookies來處理,可防範少量SYN攻擊,預設為0,表示關閉。
net.ipv4.icmp_echo_ignore_broadcasts = 1
#忽略icmp ping廣播包,避免放大攻擊。
net.ipv4.icmp_ignore_bogus_error_responses = 1
#開啟惡意icmp錯誤消息保護
net.inet.udp.checksum=1
#防止不正確的udp包的攻擊
net.ipv4.conf.default.accept_source_route = 0
#是否接受含有源路由信息的ip包。參數值為布爾值,1表示接受,0表示不接受。在充當網關的linux主機上預設值應為1,在一般的linux主機上預設值應為0。從安全性角度出發,建議關閉該功能。
net.ipv4.tcp_slow_start_after_idle = 0
#關閉tcp的連接傳輸的慢啟動,即先休止一段時間,再初始化擁塞視窗。
net.ipv4.route.gc_timeout = 100
#路由緩存刷新頻率,當一個路由失敗後多長時間跳到另一個路由,預設是300秒。
net.ipv4.tcp_max_tw_buckets = 5000
#表示操作系統允許保持TIME_WAIT套接字數量的最大值,如超過此值,TIME_WAIT套接字將立刻被清除並列印警告信息,預設為8000,過多的TIME_WAIT套接字會使伺服器響應變慢。
net.ipv4.ip_local_port_range = 1024 65000
#定義UDP和TCP鏈接的本地埠的取值範圍。
net.ipv4.tcp_rmem = 10240 87380 12582912
#定義了TCP接受socket請求緩存的記憶體最小值、預設值、最大值。
net.ipv4.tcp_wmem = 10240 87380 12582912
#定義TCP發送緩存的最小值、預設值、最大值。該值為自動調優定義每個 socket 使用的記憶體。
#第一個值是為 socket 的發送緩衝區分配的最少位元組數。
#第二個值是預設值(該值會被 wmem_default 覆蓋),緩衝區在系統負載不重的情況下可以增長到這個值。
#第三個值是發送緩衝區空間的最大位元組數(該值會被 wmem_max 覆蓋)。
net.core.netdev_max_backlog = 8096
#當網卡接收數據包的速度大於內核處理速度時,會有一個緩衝隊列保存這些數據包。這個參數表示該列隊的最大值。
net.core.somaxconn=262114
#選項預設值是128,表示socket監聽的backlog(監聽隊列)上限。這個參數用於調節系統同時發起的TCP連接數,在高併發的請求中,預設的值可能會導致鏈接超時或者重傳,因此需要結合高併發請求數來調節此值。
net.core.optmem_max = 10000000
#該參數指定了每個套接字所允許的最大緩衝區的大小(以位元組為單位)
net.core.rmem_default = 6291456
#表示內核接收套接字緩衝區預設大小(以位元組為單位)。該參數定義了預設的發送視窗大小,對於更大的 BDP 來說,這個大小也應該更大。
net.core.wmem_default = 6291456
#表示內核發送套接字緩衝區預設大小(以位元組為單位)
net.core.rmem_max = 12582912
#表示內核接收套接字緩衝區最大大小(以位元組為單位)。該參數定義了預設的發送視窗大小,對於更大的 BDP 來說,這個大小也應該更大。
net.core.wmem_max = 12582912
#表示內核發送套接字緩衝區最大大小(以位元組為單位)
net.ipv4.tcp_mem
#確定 TCP 棧應該如何反映記憶體使用;每個值的單位都是記憶體頁(通常是 4KB)。
#第一個值是記憶體使用的下限。
#第二個值是記憶體壓力模式開始對緩衝區使用應用壓力的上限。
#第三個值是記憶體上限。在這個層次上可以將報文丟棄,從而減少對記憶體的使用。對於較大的 BDP 可以增大這些值(其單位是記憶體頁,而不是位元組)。
net.ipv4.tcp_max_syn_backlog = 8192
#這個參數表示TCP三次握手建立階段接受SYN請求列隊的較大長度,預設1024,將其設置的大一些可使出現伺服器程式繁忙來不及accept新連接時,可以容納更多等待連接的網路連接數,Linux不至於丟失客戶端發起的鏈接請求。
net.ipv4.tcp_max_orphans=262114
#選項用於設定系統中最多有多少個TCP套接字不被關聯到任何一個用戶文件句柄上。如果超過這個數字,孤立鏈接將立即被覆位並輸出警告信息。這個限制指示為了防止簡單的DOS攻擊,不用過分依靠這個限制甚至認為的減小這個值,更多的情況是增加這個值。
net.ipv4.netfilter.ip_conntrack_max=204800
#設置系統開始iptables防火牆對TCP連接進行狀態跟蹤的最大隊列長度限制,超過此限定值,將會發生數據表溢出丟棄,對於高併發業務通常也可以使用iptables的raw表設置免跟蹤處理。
net.ipv4.conf.all.rp_filter = 1
#用於控制系統是否開啟對數據包源地址的校驗,1為嚴謹模式 (推薦),0為鬆散模式。預設為1開啟。
net.ipv4.conf.default.rp_filter = 1
#用於控制系統是否開啟對數據包源地址的校驗,1為嚴謹模式 (推薦),0為鬆散模式。預設為1開啟。
net.ipv4.tcp_congestion_control = cubic
#TCP擁塞控制演算法,centos7預設設置是cubic。Linux內核中提供了若幹套TCP擁塞控制演算法,已載入進內核的可以通過內核參數net.ipv4.tcp_available_congestion_control看到:sudo sysctl net.ipv4.tcp_available_congestion_control 沒有載入進內核的一般是編譯成了模塊,可以用modprobe載入。這些演算法各自適用於不同的環境。reno是最基本的擁塞控制演算法,也是TCP協議的實驗原型。bic適用於rtt較高但丟包極為罕見的情況,比如北美和歐洲之間的線路,這是2.6.8到2.6.18之間的Linux內核的預設演算法。cubic是修改版的bic,適用環境比bic廣泛一點,它是2.6.19之後的linux內核的預設演算法。hybla適用於高延時、高丟包率的網路,比如衛星鏈路——同樣適用於中美之間的鏈路。多人實驗表明,TCP擁塞控制演算法對TCP傳輸速率的影響可很大。修改TCP擁塞控制演算法需要修改內核參數net.ipv4.tcp_congestion_control=xxx
net.ipv4.tcp_window_scaling = 0
#關閉tcp_window_scaling,啟用 RFC 1323 定義的 window scaling;要支持超過64KB的視窗,必須啟用該值。
net.ipv4.tcp_ecn = 0
#關閉TCP的直接擁塞通告(tcp_ecn)
net.ipv4.tcp_sack = 1
#關閉tcp_sack,啟用有選擇的應答(Selective Acknowledgment),這可以通過有選擇地應答亂序接收到的報文來提高性能(這樣可以讓發送者只發送丟失的報文段),(對於廣域網通信來說)這個選項應該啟用,但是這會增加對CPU的占用。