我學習SSE指令的初衷就是為了實現RGB<->RGBA, YUV<->RGBA、RGB,這些轉換的指令優化。 在學習指令優化的過程中總是會看到SIMD(Single Instructions Multi Data), 單指令多數據:在一個指令周期內使用一條指令處理多個數據。這是Intel早期開發MM ...
我學習SSE指令的初衷就是為了實現RGB<->RGBA, YUV<->RGBA、RGB,這些轉換的指令優化。
在學習指令優化的過程中總是會看到SIMD(Single Instructions Multi Data), 單指令多數據:在一個指令周期內使用一條指令處理多個數據。這是Intel早期開發MMX指令就提出來的,只不過MMX指令基本是對整形數據的處理,隨著時代的發展,這些功能已經不能滿足浮點數處理的需求了,後續發展的SSE指令,更多的是對單精度浮點數和雙精度浮點數的支持和優化,並且SSE指令擴展了數據寄存器的長度,保留了xmm0~xmm7八個128位的寄存器,可以用來存儲2個雙精度浮點數、4個單精度浮點數、4個整形數據、16位元組的數據。
SSE指令可以分為以下幾類:
1)數據移動指令:支持記憶體到寄存器、寄存器到記憶體、寄存器到寄存器的數據移動
例如:movups指令, 對128位(由4個打包的單精度浮點數組成)做上述的移動處理 __asm { float af[4] = {0, 0 ,0 ,0}; float bf[4]; movups xmm0, af; movups xmm1, xmm0; movups bf, xmm1; } movaps指令,也是對128位(由4個打包單精度浮點數組成)做上述的移動處理,不同的是,如果移動的記憶體如果不滿128位,程式將拋出一個異常,所以movaps指令處理的記憶體和寄存器必須是16位元組對齊的。因此上面的代碼需要部分修改才能運行正常 __asm { __declspec(align(16)) af[4] = {0, 0, 0, 0}; __declspec(align(16)) af[4]; movaps xmm0 , af; movaps xmm1, xmm0; movaps bf, xmm1; } 相信大家對比movups和movaps指令就看出來了,mov表示移動,u,a分別表示不必16自己對齊和16自己對齊,而ps(packed single-precision floating-point)表示打包的單精度浮點數。對指令的構成有了初步瞭解之後,相信大家也很容器理解movupd和movapd的意思。 實際上不論是單精度浮點數還是雙精度浮點數,數據移動更關註的是數據位是否是128位,並不關註記憶體中的具體數據類型,只有算術運算才會關註數據類型。 例如: __asm { float af[4] = {5.0f, 5.0f, 5.0f, 5.0f}; float bf[4]; movupd xmm0, af; movupd xmm1, xmm0; movupd bf, xmm1; } movupd 更夠實現與movups一樣的效果,而不出任何異常。 瞭解了常用的128位指令移動指令,再來看看特殊的移動指令 movsd指令,可以實現將64位記憶體的數據移動到寄存器的低64,將寄存器的低64位移動到記憶體中,以及寄存器a的低64位移動到寄存器b的低64位並保持高64位不變。 movss指令與movsd指令類似,只不過是對32位數據的移動.
還有其他的移動指令就不一一列舉了,大家可以在intel指令手冊中查到。
在這裡多說一句,__asm是C++內聯彙編的關鍵字,目前大多數C++編譯器都支持對它支持。
2)算術運算指令:包括一般的四則運算,也有平方和開方運算,開方的倒數運算,求平均數運算。
下麵寫一個簡單的例子,使用算術指令一次分別完成多個數據的加減乘除運算。
float af[4] = {5.0f, 6.0f, 7.0f, 8.0f}; float bf[4] = {5.0f, 6.0f, 7.0f, 8.0f}; float add[4], sub[4], mul[4], div[4];
__asm
{ movups xmm0, af; movups xmm1, bf; movups xmm2, xmm0; // 加法 addps xmm0, xmm1; movups add, xmm0; // 減法 movups xmm0, xmm2; subps xmm0, xmm1; movups sub, xmm0; // 乘法 movups xmm0, xmm2; mulps xmm0, xmm1; movups mul, xmm0; // 除法 movups xmm0, xmm2; divps xmm0, xmm1; movups div, xmm0; } // 上面用到的四則運算指令都是浮點運算指令 int ai[4] = {4, 5, 6, 7}; int bi[4] = {4,5, 6, 7}; int add[4], sub[4], mul[4], div[4];
__asm
{ movupd xmm0, ai; movupd xmm1, bi; movupd xmm2, xmm0; // 加法 paddd xmm0, xmm1; movupd add, xmm0; // 減法 movupd xmm0, xmm2; psubd xmm0, xmm1; movupd sub, xmm0; // 乘法 movupd xmm0, xmm2; pmulld xmm0, xmm1; movupd mul, xmm0; // 除法 movupd xmm0, xmm2; divps xmm0, xmm1; movupd div, xmm0; }
加法、減法、乘法,分別對應有浮點運算和整形運算指令,而除法運算只有浮點運算指令。我們都知道CPU由於只有少量的浮點運算單元,所以浮點運算的效率要遠低於整形運算,而乘除法的運算效率又遠低於加減運算。即使使用指令完成複雜運算的書寫,也不一定能實現運算效率的提升,甚至在Release開啟優化的情況下,使用指令做了太多的浮點乘法或除法,反而沒有高級語言被編譯器優化後的執行效率高。因此我們應該要求自己,在精度允許的情況下,儘量將浮點運算用整形運算代替,並且考慮使用移位運算代替乘法和除法運算。接下來讓我們瞭解一下上面代碼中用到的算術指令。
addps:對128位寄存器的每32位做浮點加法運算。
subps:對128位寄存器的沒32位做浮點減法運算。
mulps:對128位寄存器的每32位做浮點乘法運算,並且不考慮乘法可能形成的進位。
divps:對128位寄存器的每32位做浮點除法運算。
paddd:對128位寄存器的每32位做整形加法運算。不過我在做YUV與RGB互轉的指令優化中用到更多的是paddw,該指令是對128位寄存器的每16位做加法運算,在保證不出現進位的情況下,paddw指令比paddd一次能處理更多位元組的數據。
psubd:對128位寄存器的每32位做整形減法運算。當然也有psubw可以處理16位整形減法。
pmulld:對128位寄存器的每32位做整形乘法運算,形成一個64位的立即數,然後取立即數的低32位到目的寄存器的對應bit位中。諸如此類的pmullw,是對128位寄存器的每16位做整形乘法運算,形成一個32位立即數,然後取立即數的低16位到目的寄存器的對應bit位中。
3)擴展壓縮指令:對數據做重新排布,壓縮等操作
int ai[4] = {4, 3, 4, 3}; int bi[4] = {0}; __asm { movups xmm0, ai; shufps xmm0, xmm0, 0xd8; movups bi, xmm0 // bi[4] = {4 , 4, 3, 3} // shufps是一個三操作數指令,從目的操作(一般指令的第一個操作數就是目的操作數)和源操作數中按指定的立即數取數據 // 立即數由八個二進位位組成 // 目的操作數和源操作數都是由4個單精度浮點數構成,立即數的低4位中每兩位(0-3)決定取目的操作數的第幾個32位數據,立即數的高4位中的每兩位(0-3)決定取源操作數的第幾個32位數據。 } short as[8] = {4, 0, 0, 0, 3, 0, 0, 0}; short as[8] = {4, 0 ,0, 0, 3, 0, 0, 0}; short asMaskL[8] = {0, 1, 0, 1, 0, 1, 0, 1}; int ci[4] = {0}; __asm { movups xmm0, as; movups xmm1, bs; packssdw xmm0, xmm1; // xmm0 03 04 03 04 packssdw xmm0, xmm0; // xmm0 34 34 34 34 punpcklwd xmm0, xmm0; // xmm0 33 44 33 44 shufps xmm0, xmm0, 0xd8; // xmm0 33 33 44 44 pand xmm0, asMaskL; // xmm0 30 30 40 40 movups ci, xmm0; // ci[4] = {4, 4, 3, 3}; }
shufps指令在上面的代碼註釋中已經寫到了就不再贅述,這裡在提一下我常用到的pshuflw和pshufhw,既然也有shuf,其實大家就應該想到與shufps指令類似,只是pshuflw是根據指定的立即數取目的寄存器和源寄存器的低64位,取數據的方式與shufps相似,只是每次根據2個二進位位取出一個word(16位),並且保持目的寄存器的高64位不變;pshufhw 則恰恰相反。
packssdw指令,將目的寄存器的每一個雙字壓縮成一個字把結果存在目的寄存器的低64位,並且把源寄存器的每一個雙字壓縮成一個字把結果存入目的寄存器的高64位。
packsswb指令,與packssdw類似,只是將一個字壓縮成一個位元組。
punpcklbw指令,將目的寄存器和源寄存器的低64位按位元組交叉,將結果存入目的寄存器。
punpcklwd指令,將目的寄存器和源寄存器的低64位按字交叉,將結果存入目的寄存器。
punpckldq指令,將目的寄存器和源寄存器的低64位按雙字交叉,將結果存入目的寄存器。
punpcklqdq指令,將目的寄存器和源寄存器的低64位按四字交叉,將結果存入目的寄存器。
當然也有punpckhbw, punpckhwd, punpckhdq,punpckhqdq,分別是對目的寄存器和源寄存器的高64位做交叉處理的。
寫到這裡,覺得是是否暫停一下,瞭解了這些常用的指令,就可以做我接下來真正要做的工作了。
因此我接下來會寫一寫YUV轉RGB的指令優化。
最後給出intel各種指令集的網址
https://software.intel.com/sites/landingpage/IntrinsicsGuide/