【斯坦福—機器學習】複習筆記之樸素貝葉斯演算法

本講大綱:

1.樸素貝葉斯(Naive Bayes)
2.神經網路(Neural Networks)
3.支援向量機(Support vector machines)

1.樸素貝葉斯

前面講的主要是是二元值的特徵,更一般化的是xi可以取{1,2,3…k},這樣的話可以用多項式分佈代替伯努利分佈對p(x|y)進行建模. 即使一些輸入特徵是連續值,我們也很容易離散化. 就比如說我們xi表示居住面積,我們可以離散化如下:
這裡寫圖片描述

然後我們可以利用樸素貝葉斯演算法,用多項式分佈進行建模.
當原始的連續值在多項分佈中建模效果不是很好時,離散這些特徵然後使用樸素貝葉斯(而不是GDA)常常會得到一個更好的結果.

文字分類的事件模型
在文字分類的特定語境下,樸素貝葉斯使用多變數伯努利事件模型(multi-variate Bernoulli event model).

多項式事件模型(multinomial event model)
為了說明這個模型,換一種記號的方法.
xi表示在一封郵件中的第i個詞,xi的取值為這裡寫圖片描述,其中這裡寫圖片描述表示字典的大小. n個詞的郵件可以表示為向量這裡寫圖片描述.

假設郵件產生的方式是由垃圾還是非垃圾郵件決定是一個隨機的過程,郵件的傳送者寫的第一個詞x1是由服從p(x1|y)的多項式分佈產生的,x2是獨立與x1的並且來自於同一個多項式分佈,同樣的,產生x3,x4,一直到xn. 因為所有的這個資訊的概率是這裡寫圖片描述.
模型的引數為:
這裡寫圖片描述
這裡寫圖片描述這裡寫圖片描述
這裡寫圖片描述
注意p(xj|y)對所有的j來說都是一樣的,也就是說詞的產生和它的位置無關.

似然性:
這裡寫圖片描述

引數的最大似然估計為:
這裡寫圖片描述

應用laplace平滑,分子加1,分母加|V|,得到:
這裡寫圖片描述

2.神經網路

現在想討論的問題是非線性分類器(non-linear classifier).

分類演算法中用logistic迴歸畫出一條直線把訓練集分開,但是有時候並不能被一條直線分開,我們希望:
這裡寫圖片描述

假設特徵是x0,x1,x2,x3,圈圈表示計算節點,最後的輸出為hθ(x),得到非線性分界線假設,如圖:
這裡寫圖片描述

輸入特徵輸入到多個sigmoid單元,然後這些單元再輸入到一個sigmoid單元,得到神經網路,這些中間節點叫做隱藏層,神經網路可以有多個隱藏層.
這裡寫圖片描述

其中的引數:
這裡寫圖片描述
a2,a3都是類似的;
最終的輸出,這裡寫圖片描述

展示通過神經網路識別數字的程式,即使有很多的噪音效果依舊非常好!

3.支援向量機(SVM)

很多人認為SVM是最好的監督學習演算法.

考慮logistic迴歸:
預測1等價於這裡寫圖片描述等價於這裡寫圖片描述這裡寫圖片描述越大,這裡寫圖片描述就越大,就越高的程度預測1,也就是可以說如果這裡寫圖片描述,那麼y=1. 類似地,如果這裡寫圖片描述那麼y=0.
如果能夠找到引數使得當y(i)=1時,這裡寫圖片描述,而當y(i)=0時有這裡寫圖片描述. 那麼這個預測對訓練集很好的.

為了討論SVM的簡單性,介紹一種新的標記:
這裡寫圖片描述
這裡寫圖片描述
這裡b代替了這裡寫圖片描述的角色,w代替這裡寫圖片描述的角色.

函式間隔(functional margin):這裡寫圖片描述
如果這裡寫圖片描述,為了使函式間隔很大,這裡寫圖片描述需要這裡寫圖片描述是一個很大的正數;相反,如果這裡寫圖片描述為了使函式間隔很大,需要這裡寫圖片描述是一個很大的負數. 如果這裡寫圖片描述,則我們的預測結果是正確的. 因此,一個大的函式間隔表示一個很確定的正確預測.

但是注意到的一個問題是,如果用2w代替w,用2b代替b,那麼由於這裡寫圖片描述,不會對這裡寫圖片描述有任何改變,也就是說這裡寫圖片描述只是取決於符號而跟數量沒有關係. 但是用(2w,2b)代替(w,b)會使得函式間隔間隔增大兩倍,似乎不用改變任何有意義的東西函式間隔就可以變得任意大. 直接告訴我們可以正規化(normalization), 可以用這裡寫圖片描述代替(w,b).

定義整個訓練集的函式間隔為單個訓練樣本的最小值,記做:這裡寫圖片描述

幾何間隔(geometric margins):這裡寫圖片描述

這裡寫圖片描述

w是垂直分隔超平面的,考慮訓練樣本A,它到決定邊界線的距離是這裡寫圖片描述,也就是線段AB的長度. 這裡寫圖片描述是單位向量(unit-length vector), B點表示為為:這裡寫圖片描述,在決定邊界線上的所有點滿足這裡寫圖片描述因此:
這裡寫圖片描述
解到:
這裡寫圖片描述

如果||w||等於1,函式間隔等於幾何間隔. 幾何間隔是不會隨著引數的調整而變化的.

定義整個訓練集的幾何間隔為單個訓練樣本的幾何間隔的最小值:
這裡寫圖片描述