程式分析與優化 - 10 指令級並行

来源:https://www.cnblogs.com/zhouronghua/archive/2022/07/09/16461692.html
-Advertisement-
Play Games

本章是系列文章的第十章,主要介紹CPU流水線、超標量體系架構等硬體設計,和編譯器怎麼使能這些功能來減少計算的時鐘周期。 本文中的所有內容來自學習DCC888的學習筆記或者自己理解的整理,如需轉載請註明出處。周榮華@燧原科技 10.1 概念 指令級並行是是讓一個程式中的多個操作同時執行的方法 指令級並 ...


本章是系列文章的第十章,主要介紹CPU流水線、超標量體系架構等硬體設計,和編譯器怎麼使能這些功能來減少計算的時鐘周期。

本文中的所有內容來自學習DCC888的學習筆記或者自己理解的整理,如需轉載請註明出處。周榮華@燧原科技

10.1 概念

  • 指令級並行是是讓一個程式中的多個操作同時執行的方法
  • 指令級並行對原生的順序程式也能帶來並行效果
  • 使能指令級並行的方法:
  1. 指令流水線,一起觸發一條指令,但多條指令的執行時間可以重疊
  2. 超標量體系架構執行:一條指令裡面由多條標量指令打包而成觸發的並行執行

10.2 熱身

對下麵的c代碼:

1 void swap(int v[], int k) {
2     int temp;
3     temp = v[k];
4     v[k] = v[k + 1];
5     v[k + 1] = temp;
6 }

 

 

有兩種彙編編譯結果。A1:

1 lw $t0, 0($t1) # reg $t0 (temp) = v[k]
2 lw $t2, 4($t1) # reg $t2 = v[k + 1]
3 sw $t2, 0($t1) # v[k] = reg $t2
4 sw $t0, 4($t1) # v[k + 1] = reg $t0 (temp)

 

 

A2:

1 lw $t0, 0($t1)
2 lw $t2, 4($t1)
3 sw $t0, 4($t1)
4 sw $t2, 0($t1)

哪種性能更好?

其實上面兩種結果主要體現在第3條指令和第4條指令,是相反的。

要弄清這個問題,還得從CPU的指令流水線說起。

10.3 指令流水線

Instruction pipelining - Wikipedia中對指令流水線的概念做了一些掃盲,總結下來就是下麵這張圖:

 

 

10.3.1 指令流水線的原理

常見的指令流水線的前提是一個指令執行過程中能被切割成好幾塊,當前主流的做法是切分成5個時鐘周期來執行,也稱為經典RISC流水線。在這個流水線中一條執行時間是5個時鐘周期,但執行5個指令也只需要7個時鐘周期,相對不做指令級並行的時候5*5=25個時鐘周期而言,並行效果不言而喻。

10.3.1.1 IF

指令獲取,Instruction Fetch,從代碼段中獲取指令。

10.3.1.2 ID

指令解碼,Instruction Decode,電腦體系架構設計上,除了軟體介面指令集外,最核心的就是微架構,所以一般軟體生成的指令,還需要翻譯成機器能識別的微指令,這樣才能真正執行。

10.3.1.3 EX

執行,Execute。

10.3.1.4 MEM

訪問記憶體,Memory Access。

10.3.1.5 WB

寄存器回寫。

 

有很多處理器的流水線不是固定的,例如 Intel Pentium 4,由於x86是CISC,每個指令的長度本身就不一樣,實際實現是指令的執行周期也不完全一樣,Pentium 4的指令執行周期有的要7步,甚至最長20步的,但設計原理是類似的Recap13.ppt (live.com)

 

 

這些的並行的步驟,每個CPU(核)每次只能執行每類小步驟中的一步,不同類的小步驟是可以併發執行的,靠著將指令執行過程中的每個小步驟錯開並行起來,就實現了指令流水線的功能。

如果指令的總的執行時間是固定的,那麼切分出來的步驟越多,那並行效果就會越好,性能越好。

但是步驟越多,讓程式能指令級並行起來,編譯器的邏輯就越複雜,這種20步的流水線,估計得被編譯器團隊給噴死,所以後面x86體系架構再也沒有突破20步 :)。

10.3.2 數據衝突

指令流水線能併發執行的前提是指令間沒有數據衝突。如果指令I1的輸入依賴指令I2的輸出,那在I2執行完之前I1是沒法執行的,這就是數據衝突的含義。數據衝突太多,就會造成編譯器無法生成並行度很高的指令流水線序列,這種情況就會造成指令流水線熄火。

回到上面的例子,如果把$t2寄存器的讀指令和寫指令放到一起,那這2個指令就會造成指令流水線熄火:

 

 

相反,如果把t0和t2寄存器的讀寫操作插花式排列開來,如果是2步的流水線,可以完全不熄火,對3步的流水線,最多只會熄火一步,所以後面這種插花的方式性能更好:

 

 

10.3.3 數據轉發

如果某條指令的輸出正好是後面指令的輸入,處理器可以直接將結果轉發給後面的指令:

 

 

如果實在沒辦法,編譯器會插入一些no-op指令,讓處理器“怠速”一個時鐘周期:

 

 

10.4 超標量體系架構

除了指令之間的流水線,超標量體系架構依賴指令內部的多條子指令之間的流水線來達到並行的效果。超標量體系架構其實依賴的是單個處理器中的多個IP(這裡的IP不是TCP/IP協議棧裡面的ip地址,是intellectual property的簡稱,是處理器裡面可以用來拼裝成一個大的處理的積木塊,也是可以獨立運行的處理單元)相互獨立執行來實現的。例如一個VLIW(Very Long Instruction Words,超長指令字)裡面可能既有主cpu的操作命令,也有DMA處理器的操作指令。一條GPU的指令裡面,可能既有控制指令,也有數據指令。

10.5 寄存器和並行

寄存器導致的依賴分三種(下麵的讀、寫都是相對於寄存器來說的):

  • 真實依賴,先寫後讀

lw $t0, 0($t1)
st $t0, 4($t1)

  • 反依賴,先讀後寫

st $t0, 4($t1)
lw $t0, 0($t1)

  • 輸出依賴,連續寫

lw $t0, 0($t1)
lw $t0, 4($t1)

除了第一種,後面兩種如果寄存器數量足夠的情況下,可以通過分配額外的寄存器來消除依賴。
寄存器分配演算法讓我們儘可能的少用寄存器,但多個變數復用同一個寄存器的做法又會額外註入數據依賴,使相關代碼無法並行執行。

(a + b) + c + (d + e)為例,預設寄存器分配演算法結果是這樣的:

1 LD r1, a
2 LD r2, b
3 ADD r1, r1, r2
4 LD r2, c
5 ADD r1, r1, r2
6 LD r2, d
7 LD r3, e
8 ADD r2, r2, r3
9 ADD r1, r1, r2

 

 

這樣分配的結果,導致這些指令能並行的可能性非常小,僅1/2和6/7這種連續的LD指令可以並行,其他都必須等上一行執行完才能開始執行,9條指令需要7條指令順序執行的時間。

但我們通過抽象語法樹的分析看,d+e的計算,其實和這之前的兩次加法也是不相干的,也可以並行;5個變數的LD指令,如果寄存器數量足夠的情況下,也可以並行。

 

 

理想的並行結果是這樣,只需要4條指令的執行時間就可以把這個計算完成:

 

 

怎麼樣儘可能並行的前提下,減少寄存器的使用?

10.6 基本塊調度

基本塊調度(Basic Block Scheduling)也稱本地調度(Local Scheduling)。主要使用指令依賴圖(有的地方也稱為數據依賴圖)來進行分析,程式中的每條指令是一個節點,如果節點i1使用節點i0定義的變數,則存在一條邊(i0, i1)。指令依賴圖IDG中的每條邊是一個delay,決定了最終至少需要多少個時鐘周期才能完成程式執行。

以下麵的程式為例:

1 LD R2, 0(R1)
2 ST 4(R1), R2
3 LD R3, 8(R1)
4 ADD R3, R3, R3
5 ADD R4, R3, R2
6 ST 12(R1), R4
7 ST 0(R7), R7

 

 

假定每條LD/ST指令需要5個時鐘周期(除非LD指令緊接著ST指令,並且兩個指令操作同一個記憶體地址,這種情況下ST指令只需要3個時鐘周期),每條算術運行需要2個時鐘周期,算一下該程式需要多少時鐘周期?指令依賴圖可以這樣畫:

 

 

但即使不存在數據依賴,如果多個指令使用同一個資源,也需要排隊,所以如果先調度LD R2, 0(R1)的話,需要的時鐘周期是5+3+5+2+2+3+1=21個:

 

 

 

而先調度LD R3, 8(R1)的話,需要的時鐘周期是5+5+3+3+1=17個。

 

 

演算法描述如下:

1 RT = empty reservation table
2 foreach vn ∈  V in some topological order:
3     s = MAX {S(p) + de | e = p→n ∈  E}  // 對所有n的前驅p,求p的執行開始時間和p到n之間的delay,併在其中取最大值,也就是節點n的執行開始時間
4     let i = MIN {x | RT(n, j, x) ∈  RT} in
5         s' = s + MAX(0, i – s)
6         RT(n, j, s') = vn // 在所有可獲得的RT資源中,取高度最小的一個資源申請表,來調度n

 

 

下麵是龍書上的演算法描述,可以對照起來看:

 

 

生成的資源調度圖如下:

 

 

10.7 全局代碼調度

先看一個簡單的例子:

1 if (a != 0) {
2     c = b
3 }
4 e = d + d

 

 

優化前後的指令如下,紅色部分是做了指令移動的代碼:

 

 

上面每個框裡面有個灰色的線,將兩塊指令放在了一起,在普通體系架構下,只是簡單的將他們進行流水線排序,如果在VLIW體系架構下,實際上是可以真正併發執行的,帶來的效果類似這樣:

 

 

實際上全局代碼調度相對於一個基本塊內的調度要複雜得多,主要涉及代碼移動,不安全的決策,額外執行了可能不需要的指令等問題。

後支配(Postdominate):如果一個節點dst到程式終止的所有路徑都要經過節點src,則稱為src對dst有後支配關係。

控制流一致性(Control Equivalence):如果dst支配src,並且src後支配dst,則說明src和dst是控制一致的。

如果代碼移動前後對應的位置具有控制流一致性,則這種遷移理論上是安全的。

10.7.1 代碼上移

相應的,如果上移的代碼不具備後支配性,則可能在某些場景下會多執行代碼。

 

 

同樣的,如果上移的代碼不是源位置的支配節點,則需要在其他路徑上插入補償代碼,來確保上移的代碼在各種場景下都能執行到。

 

 

10.7.2 代碼下移

如果src不是dst的支配節點的話,下移代碼可能會覆蓋另外一個分支的值:

 

 

下行代碼遷移也會有補償代碼的問題:

 

 

10.7.3 超級塊

超級塊是將多個基本塊合併成的一個新的基本塊。

例如對下麵4個基本塊:

 

 

通過合併可以變成2個基本塊,少了3次跳轉指令,流水線就能更快的優化運行:

 

 

超級塊的生成過程更通用一點的做法就是把DAG轉換成樹的過程:

 

 

10.7.4 靜態profiling技術

通過一些先驗的概率,推斷某些分支走到的可能性,來優化概率更高的分支執行速率的方法。

但多個先驗概率有可能是相互矛盾的,有時需要在多個先驗概率直接做一些妥協,或者計算加權概率,最有名的是Dempster-Shafer定理:

 

 

 

10.8 指令級並行研究歷史

    1. Hennessy, J. L. and D. A. Patterson, Computer Architecture: A Quantitative Approach, Third Edition, 2003. 電腦體系架構的經典書,學編譯器必看系列,本章的大多數描述來自這本書
    2. Kuck, D., Y. Muraoka, and S. Chen, On the number of operations simultaneously executable in Fortran-like programs and their resulting speedup. IEEE Transactions on Computers, pp. 1293-1310, 1972.
    3. Bernstein, D. and M. Rodeh, Global instruction scheduling for super-scalar machines, PLDI, pp. 241-255, 1991.

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 目錄 一、前景回顧 二、鎖的實現 三、使用鎖實現console函數 四、運行測試 一、前景回顧 上回我們實現了多線程,並且最後做了一個小小的實驗,不過有一點小瑕疵。 可以看到黃色部分的字元不連續,按道理應該是“argB Main”,這是為什麼呢?其實仔細思考一下還是很好得出結論。我們的字元列印函數是 ...
  • 記錄一次重裝電腦黑屏問題解決辦法與解決思路 2022年7月9日,因本身電腦是win7電腦,而我又想要安裝office2020版,可2020版需要win10系統,於是綜上需求,鄙人決定重裝電腦。可誰能想到,這是噩夢的開始!!! 第一次重裝 如往常一般,熟練的插上PE盤,熟練的清空硬碟數據,熟練的重裝系 ...
  • 基本網路配置 網路配置的幾個相關設置: 主機名 IP/netmask 路由:預設網關 DNS伺服器(主DNS伺服器、次DNS伺服器、第三個DNS伺服器) 實現名字解析的 主機名設置 修改主機名的方法: 持久化配置: 方法一:使用hostnamectl命令 #(只支持centos7以上的版本),修改了 ...
  • 1、前言 直接看代碼 uint32_t Time_Interval() { static uint32_t old_time_tick; uint32_t data; data = sys_time_tick_ms - old_time_tick; old_time_tick = sys_time_ ...
  • 寫在前面 大家在做板級電源設計的時候往往會有一種慣性思維: 要麼選擇自己曾經用過的電源晶元來搭建電路; 要麼直接選公司或者實驗室里現有的一些模塊; 但是你選的這個電源器件很有可能是不符合你的使用場景的,這就會造成很多的問題。 經典的不一定是最好的,經典也有過時的時候! 當然涉及到板級電源的設計是一個 ...
  • 零除的處理 用NULLIF(col, 0)可以避免複雜的WHEN...CASE判斷, 例如 ROUND(COUNT(view_50.amount_in)::NUMERIC / NULLIF(COUNT(view_50.amount_out)::NUMERIC, 0),2) AS out_divide ...
  • 一、Css基本語法 1.Html和Css沒分開時 點擊查看代碼 <!DOCTYPE html> <html lang="en"> <head> <!--規範,<style>可以編寫css的代碼,每一個聲明,最好使用分號隔開 語法: 選擇器{ 聲明1; 聲明2; 聲明3; } --> <meta ch ...
  • 1.前端傳數據後端接收: 用戶在登錄界面輸入用戶名和密碼傳給後端controller,由後端判斷是否正確! 在html界面中要傳遞的數據name命名,通過表單的提交按鈕會傳遞給響應的controller,在controller將需要的name接收! <input type="text" name=" ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...