1、下載redis源碼包,併進行解壓縮操作 https://download.redis.io/releases/ [root@Redis-Ubuntu-1804-p21:~]# wget https://download.redis.io/releases/redis-5.0.14.tar.gz ...
1. 說明 1> linux內核關於task調度這塊是比較複雜的,流程也比較長,要從源碼一一講清楚很容易看暈 2> 本篇文章主要是講清楚cfs公平調度演算法如何將task在時鐘中斷驅動下切換調度,所以與此無關的代碼一律略過 3> 本篇只講最簡單的task調度,略過組調度,組調度在下一篇《極簡組調度-CGroup如何限制cpu》中講解 4> 本篇源碼來自CentOS7.6的3.10.0-957.el7內核 2. 極簡task調度核心思想 1> linux採用cfs公平調度演算法,其用vruntime記錄task運行的cpu時長,每次用重新調度時,總是選擇vruntime最小的task進行調度 2> 所有Ready狀態的task會分配到不同cpu的rq隊列上,等待調度運行 3> 時鐘中斷中,++當前task運行時間vruntime,並檢測當前task運行時間是否超過一個時間片,或者其vruntime比當前cpu rq隊列中最小的vruntime task大一個時間片,則設置resched標記(但並不立馬進行task切換,因為此時仍在中斷上下文中) 4> 所有中斷返回後(當然也包括時鐘中斷),都會jump到ret_from_intr,這裡會檢查resched標記,如果置位,則調用schedule()選擇vruntime最小的task進行調度
![](https://img2023.cnblogs.com/blog/818872/202304/818872-20230414214449673-915445852.png)
3.1 名詞解釋
全稱 | 說明 | |
se | schedule entity | 調度實例,可以是一個task,也可以是一個group(當使用組調度時),linux支持組調度後,將調度實例從原來的task,抽象為se |
rq | run queue | cpu的運行隊列,每個cpu一個,處於Ready狀態的se掛在對應的cpu運行隊列上後,才會被選擇投入運行 |
cfs_rq | cfs rq | 公平調度運行隊列,因為一般進程都是用cfs調度演算法,一般進程的se都是掛在rq.cfs_rq上的 |
vruntime | virtual runtime | se的一個重要成員,記錄調度實例的cpu運行時長,schedule時,cfs調度每次都選取vruntime最小的se投入運行,這就是cfs調度演算法的核心原理 |
struct sched_entity { unsigned int on_rq; // se是否在rq上,不在的話即使task是Ready狀態也不會投入運行的 u64 vruntime; // cpu運行時長,cfs調度演算法總是選擇該值最小的se投入運行 }; struct task { struct sched_entity se; // 調度實例 }; struct rq { struct cfs_rq cfs; // 所有要調度的se都掛在cfs rq中 struct task_struct* curr; // 當前cpu上運行的task }; struct cfs_rq { struct rb_root tasks_timeline; // 以vruntime為key,se為value的紅黑樹根節點,schedule時,cfs調度演算法每次從這裡挑選vruntime最小的se投入運行 struct rb_node* rb_leftmost; // tasks_timeline紅黑樹最左的葉子節點,即vruntime最小的se,直接取這個節點以加快速度 sched_entity* curr; // cfs_rq中當前正在運行的se struct rq* rq; /* cpu runqueue to which this cfs_rq is attached */ unsigned int nr_running; // cfs_rq隊列上有多少個se };
3.3 數據結構關係
![](https://img2023.cnblogs.com/blog/818872/202304/818872-20230414214449672-257355115.png)
entity_tick() { update_curr(); // 如果當前cfs_rq上的se大於1,則檢查是否要重新調度 if (cfs_rq->nr_running > 1) check_preempt_tick(cfs_rq, curr); }
2> update_curr()主要是++當前task se的vruntime(當然這裡還對組調度進行了處理,這裡不講組調度,先略過)
void update_curr(struct cfs_rq* cfs_rq) { struct sched_entity* curr = cfs_rq->curr; curr->vruntime += delta_exec; // 增加se的運行時間 }
3> check_preempt_tick()判定當前運行的時間大於sched_slice時,即超過了時間片,或者其vruntime比當前cpu rq隊列中最小的vruntime task大一個時間片,就會標記resched,然後等中斷返回後會調用schedule()進行task切換
void check_preempt_tick() { // 如果運行時間大於sched_slice,則resched if (delta_exec > ideal_runtime) resched_task(rq_of(cfs_rq)->curr); // 如果比最小vruntime大一個sched_slice,則resched se = __pick_first_entity(cfs_rq); // 選擇cfs.rb_leftmost的se,即vruntime最小的se delta = curr->vruntime - se->vruntime; if (delta > ideal_runtime) resched_task(rq_of(cfs_rq)->curr); }
4> resched_curr()非常簡單,就是設置一個resched標記位TIF_NEED_RESCHED
void resched_curr(struct rq* rq) { struct task_struct* curr = rq->curr; set_tsk_thread_flag(curr, TIF_NEED_RESCHED); }
2.3.2 schedule 1> 時鐘中斷返回後,會jump到ret_from_intr(有興趣可以去分析這段彙編),如果resched標記被置位,就會調用schedule()進行調度
void schedule() { prev = rq->curr; put_prev_task_fair(rq, prev); // 對當前task進行處理,如果該task屬於一個group,還要對組調度進行處理,這裡不展開 // 選擇下一個task並切換運行 next = pick_next_task(rq); // 選擇一個vruntime最小的task進行調度 context_switch(rq, prev, next); }
2> pick_next_task() → pick_next_task_fair() → pick_next_entity() → __pick_first_entity(),__pick_first_entity()選擇vruntime最小的cfs_rq->rb_leftmost節點se進行調度
struct sched_entity *__pick_first_entity(struct cfs_rq *cfs_rq) { struct rb_node *left = cfs_rq->rb_leftmost; return rb_entry(left, struct sched_entity, run_node); }
本文為博主原創文章,如需轉載請說明轉至http://www.cnblogs.com/organic/