機器學習中訓練集、驗證集(開發集)、測試集如何劃分

NO IMAGE

1.傳統的機器學習領域中,由於收集到的資料量往往不多,比較小,所以需要將收集到的資料分為三類:訓練集、驗證集、測試集。也有人分為兩類,就是不需要測試集。

比例根據經驗不同而不同,這裡給出一個例子,如果是三類,可能是訓練集:驗證集:測試集=6:2:2;如果是兩類,可能是訓練集:驗證集=7:3。因為資料量不多,所以驗證集和測試集需要佔的資料比例比較多。

2.在大資料時代的機器學習或者深度學習領域中,如果還是按照傳統的資料劃分方式不是十分合理,因為測試集和驗證集用於評估模型和選擇模型,所需要的資料量和傳統的資料量差不多,但是由於收集到的資料遠遠大於傳統機器學習時代的資料量,所以佔的比例也就要縮小。比如我們擁有1000000,這麼多的資料,訓練集:驗證集:測試集=98:1:1。如果是兩類,也就是相同的道理。

注意:有些人在把資料分類的時候是沒有測試集資料,這樣並不是十分合理,有測試集比較放心,建議把資料分類最好有這個資料集,也就是分為三類資料哈。