實踐一:利用SSD-tensorflow訓練kitti資料集

kitti資料集介紹

資料描述
KITTI包含市區、鄉村和高速公路等場景採集的真實影象資料,每張影象中最多達15輛車和30個行人,還有各種程度的遮擋與截斷。整個資料集由389對立體影象和光流圖,39.2 km視覺測距序列以及超過200k 3D標註物體的影象組成 ,以10Hz的頻率取樣及同步。總體上看,原始資料集被分類為 ‘Van’, ‘Truck’, ‘Tram’,’Cyclist’,’Person_sitting’ ,’Misc’和 ‘Dontcare’。對於3D物體檢測,label細分為car, van, truck, pedestrian, pedestrian(sitting), cyclist, tram以及misc組成。
資料製作
為資料集設定2個類別, ‘Car’,’Pedestrian’,將 ‘Van’, ‘Truck’, ‘Tram’,’Cyclist’,合併到 ‘Car’類別中去,將 ‘Person_sitting’合併到 ‘Pedestrian’類別中去(’Misc’和 ‘Dontcare’這兩類直接忽略)
這裡寫圖片描述

SSD程式碼測試

程式碼地址:https://github.com/balancap/SSD-Tensorflow
1 製作資料集
kitti圖片總量是7481張,按照voc格式,把圖片放在JPEGImages目錄下,xml格式的檔案放在Annotations目錄下。
2 voc轉tfrecords
voc格式的資料集製作好以後,我們需要把資料集轉換成tfrecords
這裡寫圖片描述
3,修改num_classes

4,進行訓練
這裡寫圖片描述

SSD-tensorflow存在問題

1,出現記憶體不足,需要將batch改為16
2,計算得到的損失結果一直在20左右擺動[調參均失敗]

檢測結果

SSD-tensorflow檢測速度【顯示卡為1070】:44.068fps
這裡寫圖片描述