程式分析與優化 - 10 指令級並行

来源:https://www.cnblogs.com/zhouronghua/archive/2022/07/09/16461692.html
-Advertisement-
Play Games

本章是系列文章的第十章,主要介紹CPU流水線、超標量體系架構等硬體設計,和編譯器怎麼使能這些功能來減少計算的時鐘周期。 本文中的所有內容來自學習DCC888的學習筆記或者自己理解的整理,如需轉載請註明出處。周榮華@燧原科技 10.1 概念 指令級並行是是讓一個程式中的多個操作同時執行的方法 指令級並 ...


本章是系列文章的第十章,主要介紹CPU流水線、超標量體系架構等硬體設計,和編譯器怎麼使能這些功能來減少計算的時鐘周期。

本文中的所有內容來自學習DCC888的學習筆記或者自己理解的整理,如需轉載請註明出處。周榮華@燧原科技

10.1 概念

  • 指令級並行是是讓一個程式中的多個操作同時執行的方法
  • 指令級並行對原生的順序程式也能帶來並行效果
  • 使能指令級並行的方法:
  1. 指令流水線,一起觸發一條指令,但多條指令的執行時間可以重疊
  2. 超標量體系架構執行:一條指令裡面由多條標量指令打包而成觸發的並行執行

10.2 熱身

對下麵的c代碼:

1 void swap(int v[], int k) {
2     int temp;
3     temp = v[k];
4     v[k] = v[k + 1];
5     v[k + 1] = temp;
6 }

 

 

有兩種彙編編譯結果。A1:

1 lw $t0, 0($t1) # reg $t0 (temp) = v[k]
2 lw $t2, 4($t1) # reg $t2 = v[k + 1]
3 sw $t2, 0($t1) # v[k] = reg $t2
4 sw $t0, 4($t1) # v[k + 1] = reg $t0 (temp)

 

 

A2:

1 lw $t0, 0($t1)
2 lw $t2, 4($t1)
3 sw $t0, 4($t1)
4 sw $t2, 0($t1)

哪種性能更好?

其實上面兩種結果主要體現在第3條指令和第4條指令,是相反的。

要弄清這個問題,還得從CPU的指令流水線說起。

10.3 指令流水線

Instruction pipelining - Wikipedia中對指令流水線的概念做了一些掃盲,總結下來就是下麵這張圖:

 

 

10.3.1 指令流水線的原理

常見的指令流水線的前提是一個指令執行過程中能被切割成好幾塊,當前主流的做法是切分成5個時鐘周期來執行,也稱為經典RISC流水線。在這個流水線中一條執行時間是5個時鐘周期,但執行5個指令也只需要7個時鐘周期,相對不做指令級並行的時候5*5=25個時鐘周期而言,並行效果不言而喻。

10.3.1.1 IF

指令獲取,Instruction Fetch,從代碼段中獲取指令。

10.3.1.2 ID

指令解碼,Instruction Decode,電腦體系架構設計上,除了軟體介面指令集外,最核心的就是微架構,所以一般軟體生成的指令,還需要翻譯成機器能識別的微指令,這樣才能真正執行。

10.3.1.3 EX

執行,Execute。

10.3.1.4 MEM

訪問記憶體,Memory Access。

10.3.1.5 WB

寄存器回寫。

 

有很多處理器的流水線不是固定的,例如 Intel Pentium 4,由於x86是CISC,每個指令的長度本身就不一樣,實際實現是指令的執行周期也不完全一樣,Pentium 4的指令執行周期有的要7步,甚至最長20步的,但設計原理是類似的Recap13.ppt (live.com)

 

 

這些的並行的步驟,每個CPU(核)每次只能執行每類小步驟中的一步,不同類的小步驟是可以併發執行的,靠著將指令執行過程中的每個小步驟錯開並行起來,就實現了指令流水線的功能。

如果指令的總的執行時間是固定的,那麼切分出來的步驟越多,那並行效果就會越好,性能越好。

但是步驟越多,讓程式能指令級並行起來,編譯器的邏輯就越複雜,這種20步的流水線,估計得被編譯器團隊給噴死,所以後面x86體系架構再也沒有突破20步 :)。

10.3.2 數據衝突

指令流水線能併發執行的前提是指令間沒有數據衝突。如果指令I1的輸入依賴指令I2的輸出,那在I2執行完之前I1是沒法執行的,這就是數據衝突的含義。數據衝突太多,就會造成編譯器無法生成並行度很高的指令流水線序列,這種情況就會造成指令流水線熄火。

回到上面的例子,如果把$t2寄存器的讀指令和寫指令放到一起,那這2個指令就會造成指令流水線熄火:

 

 

相反,如果把t0和t2寄存器的讀寫操作插花式排列開來,如果是2步的流水線,可以完全不熄火,對3步的流水線,最多只會熄火一步,所以後面這種插花的方式性能更好:

 

 

10.3.3 數據轉發

如果某條指令的輸出正好是後面指令的輸入,處理器可以直接將結果轉發給後面的指令:

 

 

如果實在沒辦法,編譯器會插入一些no-op指令,讓處理器“怠速”一個時鐘周期:

 

 

10.4 超標量體系架構

除了指令之間的流水線,超標量體系架構依賴指令內部的多條子指令之間的流水線來達到並行的效果。超標量體系架構其實依賴的是單個處理器中的多個IP(這裡的IP不是TCP/IP協議棧裡面的ip地址,是intellectual property的簡稱,是處理器裡面可以用來拼裝成一個大的處理的積木塊,也是可以獨立運行的處理單元)相互獨立執行來實現的。例如一個VLIW(Very Long Instruction Words,超長指令字)裡面可能既有主cpu的操作命令,也有DMA處理器的操作指令。一條GPU的指令裡面,可能既有控制指令,也有數據指令。

10.5 寄存器和並行

寄存器導致的依賴分三種(下麵的讀、寫都是相對於寄存器來說的):

  • 真實依賴,先寫後讀

lw $t0, 0($t1)
st $t0, 4($t1)

  • 反依賴,先讀後寫

st $t0, 4($t1)
lw $t0, 0($t1)

  • 輸出依賴,連續寫

lw $t0, 0($t1)
lw $t0, 4($t1)

除了第一種,後面兩種如果寄存器數量足夠的情況下,可以通過分配額外的寄存器來消除依賴。
寄存器分配演算法讓我們儘可能的少用寄存器,但多個變數復用同一個寄存器的做法又會額外註入數據依賴,使相關代碼無法並行執行。

(a + b) + c + (d + e)為例,預設寄存器分配演算法結果是這樣的:

1 LD r1, a
2 LD r2, b
3 ADD r1, r1, r2
4 LD r2, c
5 ADD r1, r1, r2
6 LD r2, d
7 LD r3, e
8 ADD r2, r2, r3
9 ADD r1, r1, r2

 

 

這樣分配的結果,導致這些指令能並行的可能性非常小,僅1/2和6/7這種連續的LD指令可以並行,其他都必須等上一行執行完才能開始執行,9條指令需要7條指令順序執行的時間。

但我們通過抽象語法樹的分析看,d+e的計算,其實和這之前的兩次加法也是不相干的,也可以並行;5個變數的LD指令,如果寄存器數量足夠的情況下,也可以並行。

 

 

理想的並行結果是這樣,只需要4條指令的執行時間就可以把這個計算完成:

 

 

怎麼樣儘可能並行的前提下,減少寄存器的使用?

10.6 基本塊調度

基本塊調度(Basic Block Scheduling)也稱本地調度(Local Scheduling)。主要使用指令依賴圖(有的地方也稱為數據依賴圖)來進行分析,程式中的每條指令是一個節點,如果節點i1使用節點i0定義的變數,則存在一條邊(i0, i1)。指令依賴圖IDG中的每條邊是一個delay,決定了最終至少需要多少個時鐘周期才能完成程式執行。

以下麵的程式為例:

1 LD R2, 0(R1)
2 ST 4(R1), R2
3 LD R3, 8(R1)
4 ADD R3, R3, R3
5 ADD R4, R3, R2
6 ST 12(R1), R4
7 ST 0(R7), R7

 

 

假定每條LD/ST指令需要5個時鐘周期(除非LD指令緊接著ST指令,並且兩個指令操作同一個記憶體地址,這種情況下ST指令只需要3個時鐘周期),每條算術運行需要2個時鐘周期,算一下該程式需要多少時鐘周期?指令依賴圖可以這樣畫:

 

 

但即使不存在數據依賴,如果多個指令使用同一個資源,也需要排隊,所以如果先調度LD R2, 0(R1)的話,需要的時鐘周期是5+3+5+2+2+3+1=21個:

 

 

 

而先調度LD R3, 8(R1)的話,需要的時鐘周期是5+5+3+3+1=17個。

 

 

演算法描述如下:

1 RT = empty reservation table
2 foreach vn ∈  V in some topological order:
3     s = MAX {S(p) + de | e = p→n ∈  E}  // 對所有n的前驅p,求p的執行開始時間和p到n之間的delay,併在其中取最大值,也就是節點n的執行開始時間
4     let i = MIN {x | RT(n, j, x) ∈  RT} in
5         s' = s + MAX(0, i – s)
6         RT(n, j, s') = vn // 在所有可獲得的RT資源中,取高度最小的一個資源申請表,來調度n

 

 

下麵是龍書上的演算法描述,可以對照起來看:

 

 

生成的資源調度圖如下:

 

 

10.7 全局代碼調度

先看一個簡單的例子:

1 if (a != 0) {
2     c = b
3 }
4 e = d + d

 

 

優化前後的指令如下,紅色部分是做了指令移動的代碼:

 

 

上面每個框裡面有個灰色的線,將兩塊指令放在了一起,在普通體系架構下,只是簡單的將他們進行流水線排序,如果在VLIW體系架構下,實際上是可以真正併發執行的,帶來的效果類似這樣:

 

 

實際上全局代碼調度相對於一個基本塊內的調度要複雜得多,主要涉及代碼移動,不安全的決策,額外執行了可能不需要的指令等問題。

後支配(Postdominate):如果一個節點dst到程式終止的所有路徑都要經過節點src,則稱為src對dst有後支配關係。

控制流一致性(Control Equivalence):如果dst支配src,並且src後支配dst,則說明src和dst是控制一致的。

如果代碼移動前後對應的位置具有控制流一致性,則這種遷移理論上是安全的。

10.7.1 代碼上移

相應的,如果上移的代碼不具備後支配性,則可能在某些場景下會多執行代碼。

 

 

同樣的,如果上移的代碼不是源位置的支配節點,則需要在其他路徑上插入補償代碼,來確保上移的代碼在各種場景下都能執行到。

 

 

10.7.2 代碼下移

如果src不是dst的支配節點的話,下移代碼可能會覆蓋另外一個分支的值:

 

 

下行代碼遷移也會有補償代碼的問題:

 

 

10.7.3 超級塊

超級塊是將多個基本塊合併成的一個新的基本塊。

例如對下麵4個基本塊:

 

 

通過合併可以變成2個基本塊,少了3次跳轉指令,流水線就能更快的優化運行:

 

 

超級塊的生成過程更通用一點的做法就是把DAG轉換成樹的過程:

 

 

10.7.4 靜態profiling技術

通過一些先驗的概率,推斷某些分支走到的可能性,來優化概率更高的分支執行速率的方法。

但多個先驗概率有可能是相互矛盾的,有時需要在多個先驗概率直接做一些妥協,或者計算加權概率,最有名的是Dempster-Shafer定理:

 

 

 

10.8 指令級並行研究歷史

    1. Hennessy, J. L. and D. A. Patterson, Computer Architecture: A Quantitative Approach, Third Edition, 2003. 電腦體系架構的經典書,學編譯器必看系列,本章的大多數描述來自這本書
    2. Kuck, D., Y. Muraoka, and S. Chen, On the number of operations simultaneously executable in Fortran-like programs and their resulting speedup. IEEE Transactions on Computers, pp. 1293-1310, 1972.
    3. Bernstein, D. and M. Rodeh, Global instruction scheduling for super-scalar machines, PLDI, pp. 241-255, 1991.

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 目錄 一、前景回顧 二、鎖的實現 三、使用鎖實現console函數 四、運行測試 一、前景回顧 上回我們實現了多線程,並且最後做了一個小小的實驗,不過有一點小瑕疵。 可以看到黃色部分的字元不連續,按道理應該是“argB Main”,這是為什麼呢?其實仔細思考一下還是很好得出結論。我們的字元列印函數是 ...
  • 記錄一次重裝電腦黑屏問題解決辦法與解決思路 2022年7月9日,因本身電腦是win7電腦,而我又想要安裝office2020版,可2020版需要win10系統,於是綜上需求,鄙人決定重裝電腦。可誰能想到,這是噩夢的開始!!! 第一次重裝 如往常一般,熟練的插上PE盤,熟練的清空硬碟數據,熟練的重裝系 ...
  • 基本網路配置 網路配置的幾個相關設置: 主機名 IP/netmask 路由:預設網關 DNS伺服器(主DNS伺服器、次DNS伺服器、第三個DNS伺服器) 實現名字解析的 主機名設置 修改主機名的方法: 持久化配置: 方法一:使用hostnamectl命令 #(只支持centos7以上的版本),修改了 ...
  • 1、前言 直接看代碼 uint32_t Time_Interval() { static uint32_t old_time_tick; uint32_t data; data = sys_time_tick_ms - old_time_tick; old_time_tick = sys_time_ ...
  • 寫在前面 大家在做板級電源設計的時候往往會有一種慣性思維: 要麼選擇自己曾經用過的電源晶元來搭建電路; 要麼直接選公司或者實驗室里現有的一些模塊; 但是你選的這個電源器件很有可能是不符合你的使用場景的,這就會造成很多的問題。 經典的不一定是最好的,經典也有過時的時候! 當然涉及到板級電源的設計是一個 ...
  • 零除的處理 用NULLIF(col, 0)可以避免複雜的WHEN...CASE判斷, 例如 ROUND(COUNT(view_50.amount_in)::NUMERIC / NULLIF(COUNT(view_50.amount_out)::NUMERIC, 0),2) AS out_divide ...
  • 一、Css基本語法 1.Html和Css沒分開時 點擊查看代碼 <!DOCTYPE html> <html lang="en"> <head> <!--規範,<style>可以編寫css的代碼,每一個聲明,最好使用分號隔開 語法: 選擇器{ 聲明1; 聲明2; 聲明3; } --> <meta ch ...
  • 1.前端傳數據後端接收: 用戶在登錄界面輸入用戶名和密碼傳給後端controller,由後端判斷是否正確! 在html界面中要傳遞的數據name命名,通過表單的提交按鈕會傳遞給響應的controller,在controller將需要的name接收! <input type="text" name=" ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...