從硬體到語言,詳解C++的記憶體對齊(memory alignment)

来源:https://www.cnblogs.com/zhao-zongsheng/archive/2018/06/04/9099603.html
-Advertisement-
Play Games

很多寫C/C++的人都知道“記憶體對齊”的概念以及規則,但不一定對他有很深入的瞭解。這篇文章試著從硬體到C++語言、更徹底地講一下C++的記憶體對齊。 ...


轉載請保留以下聲明
  作者:趙宗晟
  出處:https://www.cnblogs.com/zhao-zongsheng/p/9099603.html

很多寫C/C++的人都知道“記憶體對齊”的概念以及規則,但不一定對他有很深入的瞭解。這篇文章試著從硬體到C++語言、更徹底地講一下C++的記憶體對齊。

什麼是記憶體對齊(memory alignment)

首先,什麼是記憶體對齊(memory alignment)?這個是從硬體層面出現的概念。大家都知道,可執行程式是由一系列CPU指令構成的。CPU指令中有一些指令是需要訪問記憶體的。最常見的就是“從記憶體讀到寄存器”,以及“從寄存器寫到記憶體”。在老的架構中(包括x86),也有一些運算的指令是可以直接以記憶體為操作數,那麼這些指令也隱含了記憶體的讀取。在很多CPU架構下,這些指令都要求操作的記憶體地址(更準確的說,操作記憶體的起始地址)能夠被操作的記憶體大小整除,滿足這個要求的記憶體訪問叫做訪問對齊的記憶體(aligned memory access),否則就是訪問未對齊的記憶體(unaligned memory access)。舉例來說,ARM的LDRH指令從記憶體中讀取2個byte到寄存器中。如果指定的記憶體的地址是0x2587c20,因為0x2587c20這個數能夠被2整除,所以這2個byte是對齊的。而如果指定的記憶體的地址是0x2587c33,因為不能被2整除,所以是未對齊的。

那如果訪問未對齊的記憶體會出現什麼結果呢?這個要看CPU。

  • 有些CPU架構可以訪問未對齊的記憶體,但是會有性能上的影響。典型的就是x86架構CPU
  • 有些CPU會拋出異常
  • 還有些CPU不會拋出任何異常,會靜默地訪問錯誤的地址
  • 近幾年也有些CPU的一部分指令可以正常訪問未對齊的記憶體,同時不會有性能影響

因為每個CPU對未對齊記憶體的訪問的處理方式都不一樣,所以訪問未對齊的記憶體是要儘量避免的。所以就出現了C/C++的記憶體對齊機制。

C++的記憶體對齊機制

在C++中每個類型都有兩個屬性,一個是大小(size),還有一個就是對齊要求(alignment requirement),或稱之為對齊量(alignment)。C++標準並沒有規定每個類型的對齊量,但是一般都會有這樣的規律。

  1. 所有基礎類型的對齊量等於這個類型的大小。
  2. struct, class, union類型的對齊量等於他的非靜態成員變數中最大的對齊量。

另外,標準規定所有的對齊量必須是2的冪。

編譯器在給一個變數分配記憶體時,都要算出並滿足這個類型的對齊要求。struct和class類型的非靜態成員變數的位元組數偏移(offset)也要滿足各自類型的對齊要求。

舉例來說,

class MyObject
{
    char c;
    int i;
    short s;
};

c是char類型,對齊要求是1,i是int類型,對齊要求是4,s是short類型,對齊要求是2。那麼MyObject取最大的,也就是4作為他的對齊要求。如果在某個函數中聲明瞭MyObject類型的變數,那麼分配給這個變數的記憶體的起始地址是能夠被4整除的。

我們再看MyObject的成員變數。c是MyObject的第一個成員變數,所以他的位元組數偏移是0,也就是說變數c占據MyObject的第一個byte。i的對齊要求是4,所以位元組數偏移必須是4的倍數,又因為變數i必須在變數c的後面,於是i的位元組數偏移就是4,也就是說變數i占據MyObject的第5到第8個byte,而第2到第4個byte則是空白填充(padding)。s的對齊要求是2,又因為s必須在i的後面,所以s的位元組數偏移是8,也就是說,變數s占據MyObject的第9個和第10個byte。另外,因為struct、class、union類型的數組的每個元素都要記憶體對齊,所以一般來說struct、class、union的大小都是這個類型的對齊量的整數倍,所以MyObject的大小是12,也就是說,變數s後面會有2個byte的空白填充。

因為C++中所有記憶體訪問都是通過變數的讀寫來訪問的,這個機制確保了所有變數都滿足了記憶體對齊,也就確保了程式中所有記憶體訪問都是對齊的。

當然,C++不會阻止我們去訪問未對齊的記憶體。例如,以下的代碼就很可能會訪問未對齊的記憶體:

char buf[10];
int* ptr = (int*)(buf + 1);
++*ptr;

這類代碼是我們在實際工作中也是能遇到的。事實上這種寫法是比較危險的,因為他很可能會去訪問未對齊的記憶體。這也是為什麼寫c++大家都不推薦用c風格的類型轉換寫法,而是要用static_cast, dynamic_cast, const_cast與reinterpret_cast。這樣的話,上面的代碼就必須要使用reinterpret_cast,大家都知道reinterpret_cast是很危險的,也許就會想辦法避免這樣的邏輯。

常見CPU的未對齊記憶體訪問

根據Intel最新的Intel 64及IA-32架構說明書,Intel 64及IA-32架構都支持未對齊記憶體的訪問,但是會有性能上的額外開銷(詳見http://www.intel.com/products/processor/manuals)。但是實際上最近的Core系列CPU已經可以無額外開銷訪問未對齊的記憶體。

而手機上最常見的ARMv8架構,如果是普通的、不做多核同步的未對齊的記憶體訪問,那麼CPU可能會產生對齊錯誤(alignment fault)或者執行未對齊記憶體操作。換句話說,到底會報錯還是正常執行,是要看具體CPU的實現的。即使是執行正常操作,也會有一些限制。例如,不能保證讀寫的原子性(操作一個byte的除外),很可能產生額外的開銷等(詳見https://developer.arm.com/docs/ddi0487/latest/arm-architecture-reference-manual-armv8-for-armv8-a-architecture-profile)。ARMv8中的Cortex-A系列是手機上常見的CPU家族,他們就可以正常處理未對齊記憶體訪問,但是一般會有額外的開銷(詳見http://infocenter.arm.com/help/index.jsp?topic=/com.arm.doc.faqs/ka15414.html)。

我們也可以寫一個簡單的程式測試一下自己的CPU對未對齊記憶體訪問的支持,以下是代碼:

#include <iostream>
#include <chrono>

using namespace std;
using namespace std::chrono;

milliseconds test_duration(volatile int * ptr)  // 使用volatile指針防止編譯器的優化
{
    auto start = steady_clock::now();
    for (unsigned i = 0; i < 100'000'000; ++i)
    {
        ++(*ptr);
    }
    auto end = steady_clock::now();
    return duration_cast<milliseconds>(end - start);
}

int main()
{
    int raw[2] = {0, 0};
    {
        int* ptr = raw;
        cout << "address of aligned pointer: " << (void*)ptr << endl;
        cout << "aligned access: " << test_duration(ptr).count() << "ms" << endl;
        *ptr = 0;
    }
    {
        int* ptr = (int*)(((char*)raw) + 1);
        cout << "address of unaligned pointer: " << (void*)ptr << endl;
        cout << "unaligned access: " << test_duration(ptr).count() << "ms" << endl;
        *ptr = 0;
    }
    cin.get();
    return 0;
}

我測試使用的電腦的CPU是Intel Core i7 2630QM,是intel 2代酷睿CPU,測試結果為:

address of aligned pointer: 000000668DEFFA78
aligned access: 282ms
address of unaligned pointer: 000000668DEFFA79
unaligned access: 285ms

可以看出對齊與未對齊的記憶體訪問沒有性能上的差別。

在C++中修改對齊要求

一般情況下,我們不需要自定義對齊要求,但也會有很特殊的情況下需要做調整。C++中,我們可以使用alignas關鍵字修改一個類型、或者一個變數的對齊要求。例如:

class MyObject
{
    char c;
    alignas(8) int i;
    short s;
};

這樣的話,變數i的對齊要求由原本的4變成了8,結果就是,i的位元組數偏移由4變成了8,s的位元組數偏移由8變成了12,MyObject的對齊要求也變成了8,大小變成了16。

我們也可以對MyObject的定義使用alignas:

class alignas(16) MyObject
{
    char c;
    int i;
    short s;
};

還可以在alignas裡面寫某個類型。也可以使用多個alignas,結果就是使用最大的對齊要求。例如以下MyObject的對齊要求就是16:

class alignas(int) alignas(16) MyObject
{
    char c;
    int i;
    short s;
};

alignas有一個限制,那就是不能用alignas改小對齊要求。例如以下的代碼會報錯:

alignas(1) int i;

另外,C++中,有一個特殊的類型:max_align_t,所有不大於他的對齊量叫做基礎對齊量(fundamental alignment),比這個對齊量大的叫做擴展對齊量(extended alignment )。C++標準規定,所有平臺必須要支持基礎對齊量,而對於擴展對齊量的支持要看各個平臺。一般來說max_align_t的對齊量等於long double的對齊量。

C++關於記憶體對齊的支持還有很多功能,例如查詢對齊量的alignof關鍵字,可以創建任意大小任意對齊要求的類型的aligned_storage模板,還有方便模板編程的alignment_of等等,在此就不細述了。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 剛開始學習JS不久,以及第一次來到博客園,第一次進行分享博文。。。 噢,不對,不能說是分享,而是學習請教,請前輩多多指教,各個方面都可以~ 感謝您的路過~ ...
  • CSS的權重如下: !important Infinity正無窮 行間樣式 1000 id 100 class|屬性|唯類 10 標簽|偽元素 1 通配符 0 256進位 當出現多個選擇器時 在同一行的選擇器權重相加即可 當兩個混合選擇器權重相同時優先選擇後面的選擇器 如: html <div cl ...
  • 彈性佈局flex是一個幾年前的CSS屬性了,說它解放了一部分生產力不為過。至少解放了不少CSS佈局相關的面試題 :) 之前網上流行的各種XX佈局,什麼postion: absolute+margin,float+padding,各種都可以使用flex來取代之。 早兩年在使用的時候,還是會擔心有相容性 ...
  • lesson1 <!DOCTYPE html><html lang="en,zh"><!-- 告訴搜索引擎爬蟲,我們的網站是關於什麼內容的 --><head> <meta charset="utf-8"> <meta content="服裝" name="keywords"> <meta conte ...
  • 下麵是幾種方法的公用部分(右自適應也是一樣的,換一下方向) html: css: 1. 左脫離文檔流,右margin 1.1 左float 1.2 左absolute 2. flex佈局(左定寬,右flex設置為1,自動伸展,此處註意flex相容性,可以通postcss等後處理器自動加上首碼) 效果 ...
  • 單例設計模式 目的:讓類創建對象,在系統中只有唯一的實例,讓每一次創建的對象返回的記憶體地址都是相同的。 __new__方法 使用類名創建對象時,python解釋器首先會調用__new__方法為對象分配空間 __new__方法是有object基類提供的靜態方法,主要作用有兩個: 為記憶體中的對象分配空間 ...
  • 最近想系統學習並使用一下boost的asio非同步網路庫,所以需要編譯boost庫使用,下麵簡單介紹如何編譯。 ...
  • 今天介紹的專題是servlet和jsp,屬於web開發中的基礎,先來實際操作一下servlet,創建你的第一個web小項目。 1、新建一個maven項目。 滑鼠右鍵單擊eclipse左邊項目欄的空白區,選擇第一個new,在出現的下拉中選擇other,在新彈出的框中選擇maven,點開maven選擇m ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...