GPU 編程相關 簡要摘錄

来源:https://www.cnblogs.com/xuyaowen/archive/2019/08/31/heterogeneous-system-architecture.html
-Advertisement-
Play Games

GPU 編程可以稱為異構編程,最近由於機器學習的火熱,很多模型越來越依賴於GPU來進行加速運算,所以異構計算的位置越來越重要;異構編程,主要是指CPU+GPU或者CPU+其他設備(FPGA等)協同計算。當前的計算模型中,CPU主要用來進行通用計算,其更多的是註重控制,我們可以通過GPU和FPGA等做 ...


GPU 編程可以稱為異構編程,最近由於機器學習的火熱,很多模型越來越依賴於GPU來進行加速運算,所以異構計算的位置越來越重要;異構編程,主要是指CPU+GPU或者CPU+其他設備(FPGA等)協同計算。當前的計算模型中,CPU主要用來進行通用計算,其更多的是註重控制,我們可以通過GPU和FPGA等做專用的計算。

CPU負責邏輯性強的事物處理和串列計算,GPU則專註於執行高度線程化的並行處理任務(大規模計算任務)

編程框架:

  • C++ AMP:Accelerator Massive Parallelism :C++的異構並行模型.
  • CUDA:Compute Unified Device Architecture :顯卡廠商Nvidia於2007年推出的業界第一款異構並行編程框架。
  • OpenCL (Open Computing Language):業界第一個跨平臺的異構編程框架。它是Apple領銜並聯合Nvidia,AMD,IBM,Intel等眾多廠商於2008年共同推出的一個開放標準,由單獨成立的非營利性組織Khronos Group管理。與C++ AMP類似,OpenCL作為一個開放的標準,並不局限於某個特定的GPU廠商。

三種異構編程框架,對比來看:CUDA和OPENCL 比 C++ AMP 更接近於硬體底層,所以前兩者性能較好,C++ AMP 相對前兩者 具有較高的易編程性;

三種框架的選擇:

  • 看重易用性:C++ AMP, Windows 平臺,C++ 本身也是一個開放的標準,目前只有微軟自己做了實現;
  • 看重NvidiaGPU卡上的高性能:CUDA;有大廠的直接支持,CUDA的開發環境也非常成熟,擁有很多函數庫的支持;
  • 看重不同平臺間的可移植性:OpenCL可能是目前最好的選擇;(相對於OPENCL 你可能會聽說過 OPENCV,OPENGL,OPENAL 等標準)opencl 得到了很多軟硬體廠商的大力支持。

異構計算中常見的組合:

通用處理器對協處理器之間,主要考慮一些幾個方面:協處理器能全面支持需要用到的場景關鍵演算法(演算法性能);協處理器需要有大量並行通道,每個通道支持低延時的數據處理(數據並行和低延時處理能力);和主處理器能方便得進行數據交互(介面性能較好);協處理器可以針對計算需求升級迭代(配置靈活);協處理器更低的運行成本,更小的空間占用和更簡單的熱處理方案(低功耗);

  • CPU+GPU
    • GPU 中,大量的硬體資源被用於邏輯運算單元,小部分用作控制電路,GPU中一個控制單元要負責好幾個計算單元,其為大規模數據並行處理提供了基礎;使用GPU做異構計算需要考慮GPU Memory 和 System Memory數據相關性和儘量減少異構計算過程中的控制分支;
  • CPU+FPGA
    • FPGA 優點:
      • 穩定性:驅動層控制硬體,減少了系統搶占帶來的風險;
      • 性能:利用硬體並行的優勢,打破了順序執行的模式;硬體控制層面控制IO輸入和輸出達到了專業需求能力;
      • 維護性高:FPGA可以現場升級,無需重新設計ASIC所需要的時間和費用投入;
      • 成本:比定製化的ASIC便宜,可自定義編程使用;
  • CPU+ASIC
    • ASIC 為Application Specific Integrated Circuit, 特殊定製集成電路。編程語言越接近底層硬體,運行速度越快。
    • 性能方面:ASIC > FPGA > GPU;
    • 缺點:由於ASIC 定製化,導致價格較為高昂,定製過程漫長,而且功能一旦定製就很難再去更改;

CPU 與 GPU 體繫結構:

 

 CPU 是一種低延遲的設計:

  • 強大的ALU,擁有較高的時鐘頻率;
  • 容量較大的cache,包括L1,L2,L3三級高速緩存,現在基本上是片上cache,cache占據相當一部分片上空間;
  • CPU有複雜的控制邏輯,如:複雜的流水線(pipeline)、分支預測(branch prediction)、亂序執行(Out-of-order execution)等;
  • 這些導致了,cpu使用較少的資源用於ALU 計算單元;

 

 GPU是一種面向吞吐的設計:

  • GPU 有大量的ALU;
  • cache很小,緩存為thread提高服務,而不是保存後面需要訪問的數據,這點和CPU不同;
  • 沒有複雜的控制邏輯,沒有分支預測等這些組件;
  • 於CPU對比起來,CPU擅長處理邏輯負載,串列的計算任務;而GPU擅長的是大規模的數據並行的計算任務;

參考鏈接:

http://hustcat.github.io/gpu-architecture/

https://www.huzhenyu.me/

https://www.cnblogs.com/biglucky/p/4223565.html

https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html

http://haifux.org/lectures/267/Introduction-to-GPUs.pdf (推薦)

資源多整理自網路,保持更新,如果對您有幫助,請關註 cnblogs.com/xuyaowen


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • inux和unix上都提供了history命令,可以查詢以前執行的命令歷史記錄 但是,這個記錄並不包含時間項目 因此只能看到命令,但是不知道什麼時間執行的 以下便是history記錄時間的方法: 第一步:查看系統是否支持 註:本方法只對bash 3.0以上版本有效 執行rpm q bash即可顯示b ...
  • rsync命令詳解 rsync命令是一個遠程數據同步工具,可通過LAN/WAN快速同步多台主機間的文件。rsync使用所謂的“rsync演算法”來使本地和遠程兩個主機之間的文件達到同步,這個演算法只傳送兩個文件的不同部分,而不是每次都整份傳送,因此速度相當快。 rsync是一個功能非常強大的工具,其命令 ...
  • 目錄 系統信息 關機 (系統的關機、重啟以及登出 ) 文件和目錄 文件搜索 掛載一個文件系統 磁碟空間 用戶和群組 文件的許可權 文件的特殊屬性 打包和壓縮文件 RPM 包 (Fedora, Redhat及類似系統) YUM 軟體包升級器 (Fedora, RedHat及類似系統) DEB 包 (De ...
  • 背景 By 魯迅 By 高爾基 說明: 1. Kernel版本:4.14 2. ARM64處理器,Contex A53,雙核 3. 使用工具:Source Insight 3.5, Visio 1. 介紹 讓我們思考幾個朴素的問題? 1. 系統是怎麼知道物理記憶體的? 2. 在記憶體管理真正初始化之前, ...
  • 記憶體管理的⽬標:實現記憶體分配和回收,提高記憶體空間的利用率和記憶體的訪問速度 一、存儲器的層次結構 數據存儲的局部性原理: 局部性:在⼀段較短時間內,程式的執⾏僅限於某個部分,相應地它所訪問的存儲空間也局限於某個區域 分類: 時間局部性:某條指令⼀旦執⾏,不久 後該指令可能再次執⾏ 空間局部性:⼀旦程式 ...
  • Services.msc是Windows2000/XP/2003/Vista/7/2008/8/8.1/10系統中用來啟動、終止並設置 Windows 服務的管理策略。 作用:控制系統服務。 性質:系統組建管理策略之一。 啟動方式: win鍵+R鍵啟動運行,在運行框中輸入 有時,我們需要開啟或關閉W ...
  • 一,先說一下VMware軟體和linux鏡像的版本: VMware Workstation 14 Pro ubuntu-14.04.6-desktop-amd64.iso 二,遇到的問題 在第一次安裝後可以連接到網路,但是在重啟了電腦後,再打開虛擬機就連不上網。 在這種情況下的無法連接網路 三、解決 ...
  • centos源碼編譯安裝新版本內核   在工作中,很多時候由於需要使用新的技術方案,需要較新版本的內核來支持新的功能,而centos系統自帶的內核版本普遍都比較舊,因此我們需要對系統的內核進行升級,安裝新版的內核。在此,以centos7系統為例,對編譯安裝最新版內核的過程做如下總 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...