SSE指令學習

来源:http://www.cnblogs.com/zhengjianhong/archive/2017/11/23/7879367.html
-Advertisement-
Play Games

我學習SSE指令的初衷就是為了實現RGB<->RGBA, YUV<->RGBA、RGB,這些轉換的指令優化。 在學習指令優化的過程中總是會看到SIMD(Single Instructions Multi Data), 單指令多數據:在一個指令周期內使用一條指令處理多個數據。這是Intel早期開發MM ...


我學習SSE指令的初衷就是為了實現RGB<->RGBA, YUV<->RGBA、RGB,這些轉換的指令優化。

在學習指令優化的過程中總是會看到SIMD(Single Instructions Multi Data), 單指令多數據:在一個指令周期內使用一條指令處理多個數據。這是Intel早期開發MMX指令就提出來的,只不過MMX指令基本是對整形數據的處理,隨著時代的發展,這些功能已經不能滿足浮點數處理的需求了,後續發展的SSE指令,更多的是對單精度浮點數和雙精度浮點數的支持和優化,並且SSE指令擴展了數據寄存器的長度,保留了xmm0~xmm7八個128位的寄存器,可以用來存儲2個雙精度浮點數、4個單精度浮點數、4個整形數據、16位元組的數據。

SSE指令可以分為以下幾類:

1)數據移動指令:支持記憶體到寄存器、寄存器到記憶體、寄存器到寄存器的數據移動

例如:movups指令, 對128位(由4個打包的單精度浮點數組成)做上述的移動處理
__asm
{
  float af[4] = {0, 0 ,0 ,0}; float bf[4];
   movups xmm0, af;   
   movups xmm1, xmm0;    
   movups  bf, xmm1;
}
movaps指令,也是對128位(由4個打包單精度浮點數組成)做上述的移動處理,不同的是,如果移動的記憶體如果不滿128位,程式將拋出一個異常,所以movaps指令處理的記憶體和寄存器必須是16位元組對齊的。因此上面的代碼需要部分修改才能運行正常
__asm
{
  __declspec(align(16)) af[4] = {0, 0, 0, 0};
  __declspec(align(16)) af[4];
  movaps xmm0 , af;
  movaps xmm1, xmm0;
  movaps bf, xmm1;
}
相信大家對比movups和movaps指令就看出來了,mov表示移動,u,a分別表示不必16自己對齊和16自己對齊,而ps(packed single-precision floating-point)表示打包的單精度浮點數。對指令的構成有了初步瞭解之後,相信大家也很容器理解movupd和movapd的意思。
實際上不論是單精度浮點數還是雙精度浮點數,數據移動更關註的是數據位是否是128位,並不關註記憶體中的具體數據類型,只有算術運算才會關註數據類型。
例如:
__asm
{
  float af[4] = {5.0f, 5.0f, 5.0f, 5.0f}; float bf[4];
  movupd xmm0, af;
  movupd xmm1, xmm0;
  movupd bf, xmm1;
}
movupd 更夠實現與movups一樣的效果,而不出任何異常。
瞭解了常用的128位指令移動指令,再來看看特殊的移動指令
movsd指令,可以實現將64位記憶體的數據移動到寄存器的低64,將寄存器的低64位移動到記憶體中,以及寄存器a的低64位移動到寄存器b的低64位並保持高64位不變。
movss指令與movsd指令類似,只不過是對32位數據的移動.

 還有其他的移動指令就不一一列舉了,大家可以在intel指令手冊中查到。

在這裡多說一句,__asm是C++內聯彙編的關鍵字,目前大多數C++編譯器都支持對它支持。

2)算術運算指令:包括一般的四則運算,也有平方和開方運算,開方的倒數運算,求平均數運算。

下麵寫一個簡單的例子,使用算術指令一次分別完成多個數據的加減乘除運算。

float af[4] = {5.0f, 6.0f, 7.0f, 8.0f};
float bf[4] = {5.0f, 6.0f, 7.0f, 8.0f};
float add[4], sub[4], mul[4], div[4];
__asm
{ movups xmm0, af; movups xmm1, bf; movups xmm2, xmm0;
// 加法 addps xmm0, xmm1; movups add, xmm0; // 減法 movups xmm0, xmm2; subps xmm0, xmm1; movups sub, xmm0; // 乘法 movups xmm0, xmm2; mulps xmm0, xmm1; movups mul, xmm0; // 除法 movups xmm0, xmm2; divps xmm0, xmm1; movups div, xmm0; } // 上面用到的四則運算指令都是浮點運算指令 int ai[4] = {4, 5, 6, 7}; int bi[4] = {4,56, 7}; int add[4], sub[4], mul[4], div[4];
__asm
{ movupd xmm0, ai; movupd xmm1, bi; movupd xmm2, xmm0;
// 加法 paddd xmm0, xmm1; movupd add, xmm0; // 減法 movupd xmm0, xmm2; psubd xmm0, xmm1; movupd sub, xmm0; // 乘法 movupd xmm0, xmm2; pmulld xmm0, xmm1; movupd mul, xmm0; // 除法 movupd xmm0, xmm2; divps xmm0, xmm1; movupd div, xmm0; }

加法、減法、乘法,分別對應有浮點運算和整形運算指令,而除法運算只有浮點運算指令。我們都知道CPU由於只有少量的浮點運算單元,所以浮點運算的效率要遠低於整形運算,而乘除法的運算效率又遠低於加減運算。即使使用指令完成複雜運算的書寫,也不一定能實現運算效率的提升,甚至在Release開啟優化的情況下,使用指令做了太多的浮點乘法或除法,反而沒有高級語言被編譯器優化後的執行效率高。因此我們應該要求自己,在精度允許的情況下,儘量將浮點運算用整形運算代替,並且考慮使用移位運算代替乘法和除法運算。接下來讓我們瞭解一下上面代碼中用到的算術指令。

addps:對128位寄存器的每32位做浮點加法運算。

subps:對128位寄存器的沒32位做浮點減法運算。

mulps:對128位寄存器的每32位做浮點乘法運算,並且不考慮乘法可能形成的進位。

divps:對128位寄存器的每32位做浮點除法運算。

paddd:對128位寄存器的每32位做整形加法運算。不過我在做YUV與RGB互轉的指令優化中用到更多的是paddw,該指令是對128位寄存器的每16位做加法運算,在保證不出現進位的情況下,paddw指令比paddd一次能處理更多位元組的數據。

psubd:對128位寄存器的每32位做整形減法運算。當然也有psubw可以處理16位整形減法。

pmulld:對128位寄存器的每32位做整形乘法運算,形成一個64位的立即數,然後取立即數的低32位到目的寄存器的對應bit位中。諸如此類的pmullw,是對128位寄存器的每16位做整形乘法運算,形成一個32位立即數,然後取立即數的低16位到目的寄存器的對應bit位中。

3)擴展壓縮指令:對數據做重新排布,壓縮等操作

  int ai[4] = {4, 3, 4, 3};
  int bi[4] = {0};
__asm
{
      movups xmm0, ai;
      shufps   xmm0, xmm0, 0xd8;
      movups bi,  xmm0
      // bi[4] = {4 , 4, 3, 3}
      // shufps是一個三操作數指令,從目的操作(一般指令的第一個操作數就是目的操作數)和源操作數中按指定的立即數取數據
     // 立即數由八個二進位位組成     
     // 目的操作數和源操作數都是由4個單精度浮點數構成,立即數的低4位中每兩位(0-3)決定取目的操作數的第幾個32位數據,立即數的高4位中的每兩位(0-3)決定取源操作數的第幾個32位數據。
}
 short as[8] = {4, 0, 0, 0, 3, 0, 0, 0};
 short as[8] = {4, 0 ,0, 0, 3, 0, 0, 0};
 short asMaskL[8] = {0, 1, 0, 1, 0, 1, 0, 1};
 int ci[4] = {0};
__asm
{
       movups xmm0, as;
       movups xmm1, bs;
       packssdw xmm0, xmm1;  // xmm0  03 04 03 04
       packssdw xmm0, xmm0;  // xmm0  34 34 34 34
       punpcklwd xmm0, xmm0; // xmm0  33 44 33 44
       shufps       xmm0, xmm0, 0xd8;    // xmm0 33 33 44 44
       pand         xmm0, asMaskL;       // xmm0 30 30 40 40
       movups     ci, xmm0; 
       // ci[4] = {4, 4, 3, 3};
}

shufps指令在上面的代碼註釋中已經寫到了就不再贅述,這裡在提一下我常用到的pshuflw和pshufhw,既然也有shuf,其實大家就應該想到與shufps指令類似,只是pshuflw是根據指定的立即數取目的寄存器和源寄存器的低64位,取數據的方式與shufps相似,只是每次根據2個二進位位取出一個word(16位),並且保持目的寄存器的高64位不變;pshufhw 則恰恰相反。

packssdw指令,將目的寄存器的每一個雙字壓縮成一個字把結果存在目的寄存器的低64位,並且把源寄存器的每一個雙字壓縮成一個字把結果存入目的寄存器的高64位。

packsswb指令,與packssdw類似,只是將一個字壓縮成一個位元組。

punpcklbw指令,將目的寄存器和源寄存器的低64位按位元組交叉,將結果存入目的寄存器。

punpcklwd指令,將目的寄存器和源寄存器的低64位按字交叉,將結果存入目的寄存器。

punpckldq指令,將目的寄存器和源寄存器的低64位按雙字交叉,將結果存入目的寄存器。

punpcklqdq指令,將目的寄存器和源寄存器的低64位按四字交叉,將結果存入目的寄存器。

當然也有punpckhbw, punpckhwd, punpckhdq,punpckhqdq,分別是對目的寄存器和源寄存器的高64位做交叉處理的。

寫到這裡,覺得是是否暫停一下,瞭解了這些常用的指令,就可以做我接下來真正要做的工作了。

因此我接下來會寫一寫YUV轉RGB的指令優化。

最後給出intel各種指令集的網址

 https://software.intel.com/sites/landingpage/IntrinsicsGuide/


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • C#編寫winform程式時,用到的,格式強轉,存儲到資料庫,資料庫連接那塊就不寫了 希望對大家有幫助,歡迎評論互相分享技術! //日期格式強制轉化 string str1 = deStartDate.EditValue.ToString(); DateTime date; DateTime.Try ...
  • 本文僅屬 個人嘗試,最終目的是實現 點陣圖片 存儲離線數據。 本文只包括 生成 點陣圖片的代碼,不包括 讀取點陣圖片。 1 class Program 2 { 3 static void Main(string[] args) 4 { 5 6 int xp = 200; 7 int yp = 55; ...
  • 【返回導航】 在簡單瞭解了Orleans 之後我們可以通過幾個例子去加深印象 一、Orleans入門例子 這個例子是跟著《Orleans入門例子》(https://www.cnblogs.com/gaopang/articles/7379802.html) 1.創建 首先創建一個四個項目的解決方案, ...
  • 1:Websocket有java、nodejs、python、PHP、等版本 ,我現在使用的是C3版本,伺服器端是Fleck。客戶端和伺服器端來使用websocket的,下麵開始講解如何使用: 2:在開始之前我們先來看看哪些瀏覽器支持websocket: Websocket伺服器支持: 3:接下來我 ...
  • Jenkins介紹 Jenkins是基於Java開發的一種持續集成工具,用於監控持續重覆的工作,功能包括: 1、持續的軟體版本發佈/測試項目。 2、監控外部調用執行的工作。 安裝環境 操作系統:linux(centOS) 軟體:jdk 軟體:tomcat 軟體:jenkins(2.7.1版) 安裝步 ...
  • image.png 程式計數器 作用:當前線程所執行的位元組碼的行號指示器。 在虛擬機的概念模型里,位元組碼解釋器工作時就是通過改變這個計數器的值來選取下一條需要執行的位元組碼指令,分支、迴圈、跳轉、異常處理、線程恢復等基礎功能都需要依賴這個計數器來完成。 註:如果線程正在執行一個java方法,計數器記錄 ...
  • 對於功能變數名稱解析相信很多小伙伴都瞭解過,就是我們在萬網購買一個功能變數名稱,比如hpugs.com,然後呢?我們希望功能變數名稱與我們的伺服器綁定,然後通過功能變數名稱直接訪問我們的項目,這就是本篇要和大家一起探討的問題。下麵開始我們的工作: 1、首先是功能變數名稱,登錄萬維網官網,填寫我們想要購買的功能變數名稱,然後就是查詢是否已被搶註,如 ...
  • substr(string,start,length) 參數:1,string 即你要截取的字元串2,start 即要截取的開始位置(0表示從從前往後數 第一個字元開始,負數表示從從後往前數) eg:start=1,表示從從前往後開始的第二個數開始截取,start=-1,表示從從後往前開始的第一(是 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...