Linux伺服器下運行同時包含CPU和GPU版本TensorFlow的項目,對於GPU版本,首先使用Anaconda建立GPU環境,首先將本地環境同步到服務上,再卸載cpu版本的pytorch和TensorFlow,下載GPU版對應版本的pytorch和TensorFlow。執行不同版本項目時,只需... ...
最近在Linux伺服器上配置項目,項目需要使用GPU版本的pytorch和TensorFlow,而且該項目內會同時使用TensorFlow的GPU和CPU。
在伺服器上裝環境,如果重新開始,就需要下載很多依賴包,而且如果直接在系統上安裝包,可能會和伺服器上的其他包發生衝突,因此使用Anaconda創建虛擬環境來管理項目的依賴包。Anaconda的安裝可以去清華大學的鏡像下載,速度比較快,選擇對應的版本就可以了 https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 。我需要下載python3.6對應的Anaconda可以對照下麵這張圖片來查看,選擇Anaconda3-5.2.0版本就可以了。(但是其實我下載成了anaconda2,不過並不影響後續使用)
Anaconda下載之後會在~/.bashrc中添加一條環境變數。如果首次運行conda命令找不到,就source ~/.bashrc。
配置好Anaconda後,如果要創建虛擬環境,重新下載包也需要很麻煩的操作,而且需要對照以前的項目進行一一下載。這太撈了,我們考慮直接將本地項目的anaconda環境打包好上傳到伺服器上,就可以使用本地的虛擬環境了。具體做法是,首先到本地的Anaconda環境目錄下,我的是/home/timber/anaconda2/envs ,這個目錄下就是用戶創建的anaconda環境。直接打包
tar -cvf name.tar your_env_name/
然後將這個文件用scp上傳到伺服器下的(anaconda2_dir)/envs下,
scp name.tar remote_username@remote_ip:anaconda_dir/envs
接著在伺服器的anaconda的envs目錄下解壓name.tar
tar -xvf name.tar
環境就移植到伺服器上了,可以在伺服器上通過conda env list檢驗是否有我們剛移植的環境。
本地安裝的環境是cpu版本的pytorch和TensorFlow,首先將pytorch卸載
conda activate project #激活環境 conda uninstall pytorch
然後去清華大學的鏡像下下載pytorch(因為官方下載超級慢)。需要首先配置清華大學鏡像。
依次運行以下命令
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/ conda config --set show_channel_urls yes conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
上面三條是配置清華鏡像源,下麵一條是配置pytorch源。然後去到官網,選擇你對應的pytorch版本,找到下載命令,比如,最新版本的Pytorch在cuda10下麵的官方下載命令是
conda install pytorch torchvision cudatoolkit=10.1 -c pytorch
但是,不要用這條命令,由於添加了鏡像源,我們去掉上面命令的-c pytorch,運行
conda install pytorch torchvision cudatoolkit=10.1
就可以用清華鏡像下載了。如果要下載歷史版本的pytorch,以1.0為例,就用
conda install pytorch==1.0 torchvision cudatoolkit=10.1 -c pytorch
安裝好之後,torchvision不一定能配套使用,因為Torch已經更換了,所以可能會存在版本不一致的問題,卸載torchvision,然後下載對應版本的torchvision。
出現的第一個問題是torchvision下沒有totensor,重裝0.2.0的torchvision。
第二個問題是This application failed to start because it could not faind or load the Qt platform plugin "xcb" in "".
Reinstalling the application may fix the problem.這個提示告訴我們在Qt平臺插件中找不到XCB,提示我們重裝,那我們就重裝唄,重裝pyqt
conda uninstall pyqt conda uninstall qt conda install pyqt
我的項目使用了GPU版本的Tensorflow,需要裝GPU版本的TensorFlow。
這裡還有個問題是,人臉識別和車輛檢測都使用了TensorFlow,一個是CPU版本,一個是GPU版本,會有衝突嗎。TensorFlow的GPU版本是可以跑cpu的,所以先把之前的TensorFlow卸載掉。下載了GPU版本的
conda install tensorflow-gpu==1.12.0
但是這裡同時下載了cuda的9.0的toolkit,之前下載torch的時候使用了cuda10的toolkit,不知道會怎麼樣。測試之後發現沒有衝突。
現在在這個項目下,有一個GPU的版本,有一個cpu的版本,同時也有兩套對應的anaconda環境與之對應,當執行GPU版本時,需要切換到anaconda的GPU環境。這種切換可以是在命令行中
conda activate gpu
也可以是在pycharm中進行project intepreter設置,選中anaconda/envs/project/bin/python3.6,就是選中了該環境。
至此,還剩最後一個問題,GPU版本的TensorFlow是預設使用gpu版本,但是GPU版本的項目有一塊是需要使用cpu版本的tensorflow的,那麼應該如何設置?