Horovod 分散式深度學習框架相關

-Advertisement-

最近需要 Horovod 相關的知識，在這裡記錄一下，進行備忘：分散式訓練，分為數據並行和模型並行兩種；模型並行：分散式系統中的不同GPU負責網路模型的不同部分。神經網路模型的不同網路層被分配到不同的GPU或者同一層內部的不同參數被分配到不同的GPU之上；數據並行：不同的GPU有同一個模型的多 ...

最近需要 Horovod 相關的知識，在這裡記錄一下，進行備忘：

分散式訓練，分為數據並行和模型並行兩種；
模型並行：分散式系統中的不同GPU負責網路模型的不同部分。神經網路模型的不同網路層被分配到不同的GPU或者同一層內部的不同參數被分配到不同的GPU之上；
數據並行：不同的GPU有同一個模型的多個副本，每個GPU分配到不同的數據，然後將所有的GPU的結果按照某種方式合併；
不同的GPU,可以是同一臺機器之上的多個GPU或者是不同機器上的GPU;

在數據並行過程中，各個GPU之間需要同步模型參數，參數分為同步更新和非同步更新兩種情況；
圖中的Machine可以認為是GPU或者是CPU;也有數據並行和模型並行的混合模式；模型並行各個部分存在一定的依賴，規模伸縮性差；而數據並行中，各個部分獨立，規模伸縮性好；實際訓練過程中更多使用數據並行；
數據並行會涉及到各個 GPU 之間同步模型參數，一般分為同步更新和非同步更新。同步更新要等到所有 GPU 的梯度計算完成，再統一計算新權值，然後所有 GPU 同步新值後，才進行下一輪計算。非同步更新，每個 GPU 梯度計算完後，無需等待其他 GPU 的梯度計算（有時可以設置需要等待的梯度個數），可立即更新整體權值，然後同步此權值，即可進行下一輪計算。同步更新有等待，非同步更新基本沒有等待，但非同步更新涉及到梯度過時等更複雜問題；在實際應用中，單機多卡的同步式數據並行是最常用的，在論文中最常見的訓練方式是單機八卡。數據再多時，一般就需要多機多卡；
無論是單機多卡，還是多機多卡，都是分散式訓練；

保持更新，更多內容請關註 cnblogs.com/xuyaowen;

Horovod 安裝：

安裝 cuda 9.0; https://www.cnblogs.com/xuyaowen/p/nvidia-driver-cuda-installation.html

編譯安裝nccl 根據cuda 9.0; https://www.cnblogs.com/xuyaowen/p/nccl-learning.html

安裝 gcc 4.9: https://www.cnblogs.com/xuyaowen/p/gcc-49-install-on-ubuntu.html

python 版本 Python 3.6.9 （具體環境請自行適配）

安裝 openmpi 4.0 : https://www.cnblogs.com/xuyaowen/p/openmpi-40-install.html

pip 安裝 Horovod 框架：

HOROVOD_NCCL_HOME=nccl的home目錄 HOROVOD_NCCL_LIB=nccl的lib目錄 HOROVOD_NCCL_INCLUDE=nccl的include目錄 HOROVOD_GPU_ALLREDUCE=NCCL pip install --no-cache-dir horovod

HOROVOD_NCCL_HOME=/home/name/nccl/build/ HOROVOD_NCCL_LIB=/home/name/nccl/build/lib/ HOROVOD_NCCL_INCLUDE=/home/name/nccl/build/include/  HOROVOD_GPU_ALLREDUCE=NCCL  pip install --no-cache-dir horovod

安裝後，使用：python -c "import horovod.tensorflow as hvd;" 命令進行測試，如果無錯誤輸出，則表示安裝成功；之後可參考官方手冊使用Horovod；

➜  openmpi python -c "import horovod.tensorflow as hvd;"
/home/name/anaconda3/envs/gnnalgos/lib/python3.6/site-packages/tensorflow/python/framework/dtypes.py:523: FutureWarning: Passing (type, 1) or '1type' as a synonym of type is deprecated; in a future version of numpy, it will be understood as (type, (1,)) / '(1,)type'.
  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
/home/name/anaconda3/envs/gnnalgos/lib/python3.6/site-packages/tensorflow/python/framework/dtypes.py:524: FutureWarning: Passing (type, 1) or '1type' as a synonym of type is deprecated; in a future version of numpy, it will be understood as (type, (1,)) / '(1,)type'.
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
/home/name/anaconda3/envs/gnnalgos/lib/python3.6/site-packages/tensorflow/python/framework/dtypes.py:525: FutureWarning: Passing (type, 1) or '1type' as a synonym of type is deprecated; in a future version of numpy, it will be understood as (type, (1,)) / '(1,)type'.
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
/home/name/anaconda3/envs/gnnalgos/lib/python3.6/site-packages/tensorflow/python/framework/dtypes.py:526: FutureWarning: Passing (type, 1) or '1type' as a synonym of type is deprecated; in a future version of numpy, it will be understood as (type, (1,)) / '(1,)type'.
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
/home/name/anaconda3/envs/gnnalgos/lib/python3.6/site-packages/tensorflow/python/framework/dtypes.py:527: FutureWarning: Passing (type, 1) or '1type' as a synonym of type is deprecated; in a future version of numpy, it will be understood as (type, (1,)) / '(1,)type'.
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
/home/name/anaconda3/envs/gnnalgos/lib/python3.6/site-packages/tensorflow/python/framework/dtypes.py:532: FutureWarning: Passing (type, 1) or '1type' as a synonym of type is deprecated; in a future version of numpy, it will be understood as (type, (1,)) / '(1,)type'.
  np_resource = np.dtype([("resource", np.ubyte, 1)])

安裝測試結果

參考連接：

https://github.com/horovod/horovod (官方文檔，可以參考安裝和使用)

https://www.infoq.cn/article/J4ry_9bsfbcNkv6dfuqC

http://fyubang.com/2019/07/08/distributed-training/ （講解了分散式多卡訓練相關的基礎知識）

分散式多卡-pytorch,tensorflow 系列教程（較為詳細的教程，講解了現有較為優秀的框架的特點和使用方式）

https://zhuanlan.zhihu.com/p/78303865 （安裝使用參考，本文中的安裝步驟參考此教程）

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

ASP.NET Core主機地址過濾HostFiltering

前言在ASP.Net Core2.X調用的CreateWebHostBuilder和3.X的主要區別在於WebHost的調用,CreateDefaultBuilder被Host替換,另一個區別是對ConfigureWebHostDefaults()的調用; 由於新的主機生成器是通用主機生成器，因此 ...
C# winform 獲取滑鼠點擊位置

說明：該篇隨筆的代碼內容並非出自本人，是在其他網站搜尋的，出處已經不記得了，本次隨筆只為記錄，目的幫助自己，幫助他人。實現的原理也不做多的贅述，直接上代碼。第一個類是需要用到的Windows API public class Win32Api { [StructLayout(LayoutKind ...
WPF——如何為項目設置全局樣式。

在項目中，需要為所有的Button、TextBox設置一個預設的全局樣式，一個個的為多個控制項設置相同的樣式顯然是不明智的。在WPF中可以通過資源設置全局樣式，主要有倆種方法： 1.第一種就是先寫好按鈕的樣式，不寫Key,然後在App.xaml中引用。 <ResourceDictionary xmln ...
分享windows 10 下部署 elasticsearch 和 logstash (二）

接上一篇，es部署很簡單，很快就弄好了。但是還是有很多不玩美。比如說：主機是本地的IP或機器名，埠是固定的9200. 而且是只有一個節點，我要在一臺機器上部署多個節點呢。經過一段時間的摸索，做起來也很簡單，但過程切實很痛苦。具體做法是：你想部署多少個節點，你就重覆多少次上一步的做法。啟動就 ...
[UWP]使用CompositionAPI的翻轉動畫

1. 運行效果在 "使用GetAlphaMask和ContainerVisual製作長陰影(Long Shadow)" 這篇文章里我介紹了一個包含長陰影的番茄鐘，這個番茄鐘在狀態切換時用到了翻轉動畫，效果如上所示，還用到了彈簧動畫，可以看到翻轉後有點回彈。本來打算自己這個動畫效果寫的，但火火已經寫 ...
安裝 openmpi 4.0 用於 horovod 編譯

最近編譯 horovod框架過程中，需要使用openmpi 4.0但是環境中的openmpi版本比較低，所以在手動安裝openmpi4.0 用於編譯，下麵對過程進行簡要記錄，進行備忘： curl -O -L https://download.open-mpi.org/release/open-mpi ...
gcc 4.9 編譯安裝 in Ubuntu 18.04（主要用於在無root許可權下，進行更新系統 gcc 版本）

gcc 4.9 編譯安裝教程，因為項目編譯過程中，需要採用特定的gcc版本來進行編譯，所以進行簡要記錄，進行備忘：下載：curl -O -L https://mirrors.tuna.tsinghua.edu.cn/gnu/gcc/gcc-4.9.0/gcc-4.9.0.tar.gz 解壓：tar ...
007.Kubernetes二進位部署Flannel

一部署flannel 1.1 安裝flannel kubernetes 要求集群內各節點(包括 master 節點)能通過 Pod 網段互聯互通。flannel 使用 vxlan 技術為各節點創建一個可以互通的 Pod 網路，使用的埠為 UDP 8472。 flanneld 第一次啟動時，從 e ...