深度學習基礎理論

為什麼交叉熵損失可以提高具有sigmoid和softmax輸出的模型的效能,而使用均方誤差損失則會存在很多問題

一、均方誤差的權值更新過程(舉例說明) 代價函式經常用方差代價函式(即採用均方誤差MSE),比如對於一個神經元(單輸入單輸出,sigmoid函式),定義其代價函式為: 其中y是我們期望的輸出,a為神經元的實際輸出【 a=σ(z), where z=wx b 】。在訓練神經網路過程中,我們通過梯度下降 […]