Intel® AI DevCloud

申請

網址 https://software.intel.com/zh-cn/ai-academy/tools/devcloud
這裡寫圖片描述
這裡寫圖片描述
等一天後
這裡寫圖片描述
申請成功

登入

從郵件中給的地址進去
這裡寫圖片描述
點選Learn,學習基本的一些使用方式
這裡寫圖片描述
點選Connect,按照教程去連線,教程非常詳細。
下載的一個神奇的檔案
這裡寫圖片描述
這個檔案正確使用後
這裡寫圖片描述
配置代理時,我出現了錯誤
這裡寫圖片描述
原因是忽略了這一句Under "Proxy Type", move the radio button to Local
這裡寫圖片描述
成功連線
這裡寫圖片描述
在Deepin 15.5上連線
這裡寫圖片描述
在deepin上更詳細的使用請參考 在deepin15.5上使用 Intel® AI DevCloud

使用

先來一個lenet玩一玩
製作資料集的指令碼
create_mnist.sh

DATA=/data/handwriting_character_recognition
BIN=/glob/intel-python/python3/bin/convert_mnist_data
OUTPUT=.
BACKEND="lmdb"
$BIN \
$DATA/train-images-idx3-ubyte \
$DATA/train-labels-idx1-ubyte \
$OUTPUT/train_lmdb --backend=${BACKEND}
$BIN \
$DATA/t10k-images-idx3-ubyte \
$DATA/t10k-labels-idx1-ubyte \
$OUTPUT/test_lmdb --backend=${BACKEND}

傳送任務的指令碼
launch_create_mnist

#PBS -N my_project_1
cd ~/
echo "Starting calculation"
bash create_mnist.sh
echo "End of calculation"

提交任務

qsub launch_create_mnist

然後就能在當前目錄下看到test_lmdbh和train_lmdb兩個資料夾了。
從GitHub上下載訓練用的lenet_solver.prototxt和lenet_train_test.prototxt檔案,改改路徑啥的。
然後建立新的啟動任務的指令碼
launch_train_test_mnist

#PBS -N my_project_1
cd ~/
echo "Starting calculation"
caffe train -solver lenet_solver.prototxt
echo "End of calculation"

提交任務,讓計算節點跑。
這個速度還是很快的。跑一萬次迭代,


########################################################################
# Colfax Cluster - https://colfaxresearch.com/
#      Date:           Mon Jan 22 00:24:29 PST 2018
#    Job ID:           36780.c009
#      User:           u9860
# Resources:           neednodes=1:ppn=2,nodes=1:ppn=2,walltime=06:00:00
########################################################################
。。。
########################################################################
# Colfax Cluster
# End of output for job 36780.c009
# Date: Mon Jan 22 00:25:11 PST 2018
########################################################################

比較奇怪的是,它在o檔案中輸出了網路配置資訊,而還在e檔案中輸出了執行時的日誌,e檔案不是出錯才會寫嗎?
測試一下lenet
launch_test_mnist

#PBS -N my_project_1
cd ~/
echo "Starting calculation"
caffe test -model lenet_train_test.prototxt \
-weights mnist/lenet_iter_10000.caffemodel \
-iterations 100
#bash create_mnist.sh
echo "End of calculation"

有關devCloud中卡的問題
有時候,我寫了一個launch指令碼,感覺沒問題的,提交過去,就一直卡,Time Use一直是0,要是我寫錯了,你好歹報個錯呀。