背景 By 魯迅 By 高爾基 說明: 1. Kernel版本:4.14 2. ARM64處理器 3. 使用工具:Source Insight 3.5, Visio 1. 介紹 在Linux OS中,Idle進程的運行會讓CPU進入cpuidle狀態。當沒有其他進程處於運行狀態時,Scheduler ...
背景
Read the fucking source code!
--By 魯迅A picture is worth a thousand words.
--By 高爾基
說明:
- Kernel版本:4.14
- ARM64處理器
- 使用工具:Source Insight 3.5, Visio
1. 介紹
在Linux OS中,Idle進程的運行會讓CPU進入cpuidle狀態。當沒有其他進程處於運行狀態時,Scheduler會選擇Idle進程來運行,此時CPU無所事事。
在ARM64架構中,當CPU Idle時,會調用WFI
指令(wait for interrupt
),關掉CPU的Clock以便降低功耗,當有外設中斷觸發時,CPU又會恢復回來。
cpuidle framework
就是用來向上給Scheduler/Sysfs
提供使用介面,向下用來對接不同架構的處理器,凡是框架基本都大同小異,屏蔽硬體層並抽象使用介面。
相信你已經猜到了,cpuidle和電源管理相關。
2. 框架
代碼路徑:
driver/cpuidle/cpuidle.c
driver/cpuidle/driver.c
driver/cpuidle/governor.c
driver/cpuidle/sysfs.c
kernel/shced/idle.c
老規矩,上圖:
簡單說明一下吧:調度器發現沒有Task處在運行狀態時,切換到Idle進程,此時通過cpuidle_idle_call
介面調到cpuidle framework
,cpuidle framework
會選擇合適的策略來決定進入哪種狀態,最終回調到底層的平臺實現。
SMP處理器
都有cpuidle狀態,而各個狀態下的功耗都不同,是否進入cpuidle狀態有兩個重要的參考因素:
- CPU
進入-退出
cpuidle狀態的latency; - CPU處在cpuidle狀態的功耗;
Latency和功耗的tradeoff,是需要根據實際情況來選擇策略的,也就是Governor的作用。
3. 數據結構
cpuidle core
抽象出了三個數據結構:
cpuidle device
:用於描述CPU核;cpuidle driver
: 針對CPU核的驅動;cpuidle governor
:主要根據cpuidle的device和driver狀態來選擇策略;
圖如下:
3.1 cpuidle device
針對每個CPU核都對應一個struct cpuidle_device
結構,主要欄位介紹如下:
registered
:該cpu核是否註冊進內核中;enabled
:該cpu核是否已經使能;cpu
:對應的cpu number;last_residency
:該cpu核上一次停留在cpuidle狀態的時間(us);state_count
:cpuidle狀態的個數;states_usage
:struct cpuidle_state_usage
數組,記錄每個cpuidle狀態的統計信息,包括是否使能、進入該cpuidle狀態的次數,停留在該cpuidle狀態的總時間(us);kobjs*
:與sysfs組織相關,開發給用戶層來操作底層;device_list
:全局鏈表,鏈接到cpuidle_detected_device
上;
3.2 cpuidle driver
cpuidle driver
用於驅動一個或多個CPU核,關鍵欄位描述如下:
bctimer
:用於驅動註冊時判斷是否需要設置broadcast timer;states[]
:struct cpuidle_state
數組,用於描述cpuidle的狀態,需要按照功耗從大到小來排序,具體有多少個cpuidle狀態,取決於device Tree中的定義,預設已經有state[0]
,如上圖所示。cpumask
:用於表明支持哪些CPU核;
struct cpuidle_state
中的enter
函數,是最終進入cpuidle狀態的函數。不同處理器的cpuidle驅動實現,主要是填充state
結構體。
3.3 cpuidle governor
governor結構主要提供不同的回調函數,最終由menu_governor
填充,主要欄位如下:
enable/disable
:在設備驅動註冊和註銷的時候調用;select
:根據已有狀態來選擇一個cpuidle狀態;reflect
:調用該介面告知governor,CPU上一次所處的cpuidle狀態是哪個;
流程
以cpuidle-arm.c
為例,整個註冊流程如下圖:
註冊之後便將設備和驅動建立起連接關係了,最終cpuidle framework
的用戶便可通過介面來調用下層的介面,進而完成具體的硬體操作。
Idle Task通過cpuidle_enter
為入口,調用到cpuidle_framework
,流程如下圖:
Idle Task調用cpuidle_enter
之前,需要先通過governor
來運用策略來選擇將要進入的cpuidle state。入口為cpuidle_select
,當完成狀態切換後會調用cpuidle_reflect
來將信息更新到governor
。具體的圖如下:
其中Governor
關於狀態的策略選擇,可以參考menu.c
的註釋,主要有三個決定因素:
- 功耗平衡點,也就是需要權衡考慮cpuidle狀態帶來的功耗節省和在該cpuidle狀態下的停留時間,假如停留時間太短(小於
target_residency
),則不划算。 - 性能影響,那些具有大的延遲退出(
exit_latency
)的cpuidle state
,通常會對工作負載產生較大影響,這個對系統管理員來說是不可接受的。此外,低性能往往也意味著低功耗。 - 延遲容忍度(從
pmqos
框架獲取),在滿足延遲容忍度latency_req
的條件下,選擇功耗最小的cpuidle狀態。
具體的策略不再分析,請直接看driver/cpuilde/menu.c
代碼及註釋。