RuntimeError: NCCL error in: /pytorch/torch/lib/c10d/ProcessGroupNCCL.cpp:784, unhandled system error

-Advertisement-

發現報錯:RuntimeError: NCCL error in: /pytorch/torch/lib/c10d/ProcessGroupNCCL.cpp:784, unhandled system error想在linux上跑跑mmclassification中的resnet網路，但是報錯，查閱... ...

發現報錯:

編輯

想在linux上跑跑mmclassification中的resnet網路，但是報錯，查閱資料後發現，第二個錯誤是由於第一個錯誤產生的。那麼現在就要解決第一個報錯。

第一個報錯查閱了一堆資料後，發現是GPU使用數量的原因，但我電腦只有一個GPU，修改了配置文件後，依舊這樣報錯。有的博主是由於文件中有中文字元，我仔細檢查後沒有發現。

最後才發現，之前用的訓練命令如下：

sh ./tools/dist_train.sh configs/resnet/resnet18_b32x8_imagenet.py 1 --work-dir ./ckpt

對上述命令闡述如下：

dist_train.sh – 訓練 sh 腳本

configs/resnet/resnet18_b32x8_imagenet.py – 訓練依賴的配置

1 – GPU 個數

--work-dir ./ckp – 模型存放的路徑

但是這個命令只適用於多個GPU的時候，單個GPU得用以下命令：

python ./tools/dist_train.sh configs/resnet/resnet18_b32x8_imagenet.py --work-dir ./ckpt

最終問題解決，開始煉丹。

編輯

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Django筆記三之使用model對資料庫進行增刪改查

大家好，我是3y啊。大概不知道從什麼時候，「微服務」「分散式」這兩個詞又再次頻繁出現在我的視線里。「微服務」「分散式」在我剛畢業的時候還是比較關註的，那時候還入門了一把SpringCloud，寫了一篇很長的文章，還是很頂的，有不少的大號都給我轉載了，在知乎又獲得了很多的贊。那時候覺得懂「分散式 ...
Collection單列集合總結

這篇文章記錄了Collection集合，List集合，Set集合在文章第七點總結了兩大系列集合的五種實現類的區別，有需要的小伙伴可以直接去查看一、什麼是集合集合是Java中存儲對象數據的一種容器二、集合有什麼特點大小不固定，類型也可以不固定（通常需要泛型約束）集合只能存儲引用數據類型集 ...
JAVA -01（簡單知識介紹）

JAVA -01 前期準備介紹 1972年C誕生【兩大問題：指針；記憶體管理】 1982年C++誕生【面向對象；相容C；圖形領域和游戲，但是更複雜】 1995年JAVA誕生【沒有指針沒有記憶體管理；面向對象；類型安全；高質量類庫；跨平臺（JVM實現）；applet圖形界面程式】小碎點三高問題：高可 ...
2023最新ELK日誌平臺（elasticsearch+logstash+kibana）搭建

去年公司由於不斷發展，內部自研系統越來越多，所以後來搭建了一個日誌收集平臺，並將日誌收集功能以二方包形式引入自研系統，避免每個自研系統都要建立一套自己的日誌模塊，節約了開發時間，管理起來也更加容易。這篇文章主要介紹ELK最新版本的搭建，二方包的介紹可以看小霸王的另外一篇文章。 ...
day07-SpringBoot接收參數相關註解

SpringBoot接收參數相關註解 1.基本介紹 SpringBoot接收客戶端提交數據/參數會使用到相關註解詳解@PathVariable、@RequestHeader、@ModelAttribute、@RequestParam、@CookieValue、@RequestBody 2.接參數相 ...
conda環境下使用nvcc -V報錯nvcc: command not found的一種解決方法

前言緣起實驗室的學弟問我為什麼他使用nvcc命令報錯，起先我以為他用的是老師給的root賬戶，按照參考文獻1便可以解決問題。但由於並非root用戶，/usr/local下沒有cuda，於是便無法按照參考1中的方法去做。這裡提供一種方法，其實是參考了文獻2，但似乎是歪打正著，因為2要解決的問題 ...
Java NIO Socket學習

瞭解過 Hex 六邊形架構、Onion 洋蔥架構、Clean 整潔架構的同學可以將本篇文章介紹的實踐方法與自身項目代碼架構對比並互通有無，共同改進。沒瞭解過上述架構的同學可以學習一種新的架構方法，並嘗試將其應用到業務項目中，降低項目維護成本，提高效率。本文提及的架構主要指項目組織的“代碼架構”，註... ...
C++/Qt網路通訊模塊設計與實現(四)

在C++/Qt網路通訊模塊設計與實現(三)中提到了一個概念，即接受者所依附的線程；關註我微信公眾號的技術朋友留言對該概念還是不解，這節就單獨講述這個概念的理論與實際應用，這種應用無處不在，因為與Qt的信號槽、線程相關，大家需掌握。接下來從 Qt::ConnectionType，示例源碼，結果論證，歸 ...