【機器學習(李巨集毅)】 二、Regression: Case Study

【機器學習(李巨集毅)】 二、Regression: Case Study

迴歸問題:

  • The output of the target function f is “scalar”.

這裡寫圖片描述

課程用例說明:

  • 針對的問題:估計pokemon進化之後的CP值

這裡寫圖片描述

Step1:選擇模型

  • 注意:現只考慮一個引數即當前CP值

這裡寫圖片描述

Step2:模型好壞

這裡寫圖片描述

這裡寫圖片描述

  • 模型的好壞用損失函式來評價,公式見下圖:

這裡寫圖片描述

這裡寫圖片描述

Step3:最佳函式/模型

  • 即是求使得損失函式最小時,引數wb的值

這裡寫圖片描述

  • 使用梯度下降法來求解
  • 以只考慮一個引數w為例:

這裡寫圖片描述

這裡寫圖片描述

這裡寫圖片描述

  • 考慮w和b兩個引數:

這裡寫圖片描述

這裡寫圖片描述

這裡寫圖片描述

  • 計算梯度例項:

這裡寫圖片描述

結果評價:

  • 從訓練集得出最好的模型,將此模型用在測試集上,得出誤差。
  • 一次模型:

這裡寫圖片描述

這裡寫圖片描述

  • 二次模型:更好了

這裡寫圖片描述

  • 三次模型:稍微變好一點

這裡寫圖片描述

  • 四次模型:開始變差

這裡寫圖片描述

  • 五次模型:太差,爆炸

這裡寫圖片描述

模型的選擇

  • 在訓練集上,越複雜的模型當然能產生更低的誤差

這裡寫圖片描述

  • 但是一個更復雜的模型,在測試集上,並不總是得到更好的結果。
  • 原因是過擬合,所以要選擇合適的模型

這裡寫圖片描述

蒐集更多的資料:

這裡寫圖片描述

其他隱藏的因素:

  • 首先,當然是將物種因素考慮進來:

這裡寫圖片描述

Back to step 1:重新設計模型

  • 對於物種因素,當其為不同的物種,其函式也不同。
  • 但可寫成一個線性模型(繼續往下看)。

這裡寫圖片描述

  • 利用δ\delta 函式,將模型寫成了一個線性函式的形式:

這裡寫圖片描述

  • 舉例:當物種為Pidgey時,無關項都變為了0:

這裡寫圖片描述

結果評價:

  • 可以看出,測試集上的誤差為14.3,與之前相比,確實變好:

這裡寫圖片描述

其他隱藏因素?

  • 重量、高度、HP值(這些在示例的pokemon卡片上都能看到)

這裡寫圖片描述

Back to step 1:重新設計模型

這裡寫圖片描述

Back to step 2: 正則化

  • 想要更小的wiw_{i}
  • 原因:因為在測試上測試時,當一些噪音作為輸入時,更平滑的函式受到的影響會更小。

這裡寫圖片描述

  • 要多平滑?通過λ\lambda 來得到最佳模型
  • 對於訓練誤差:λ\lambda越大,考慮訓練誤差越少
  • 我們要平滑的函式,但不能太平滑

這裡寫圖片描述

結論:

這裡寫圖片描述