整合學習——Bagging
1 Star2 Stars3 Stars4 Stars5 Stars 給文章打分!
Loading...

1.1.1. Bagging

Bagging也叫自舉匯聚法(bootstrap-aggregating),是一種在原始資料集上通過有放回抽樣重新選出S個新資料集來訓練分類器的整合技術。也就是說這些新資料集是允許重複的。使用訓練出來的分類器集合來對新樣本進行分類,然後用多數投票或者對輸出求均值的方法統計所有分類器的分類結果,結果最高的類別即為最終標籤。

1.1.1.1. 隨機森林

其基本思想就是構造很多棵決策樹,形成一個森林,然後用這些決策樹共同決策輸出類別是什麼。隨機森林演算法及在構建單一決策樹的基礎上的,同時是單一決策樹演算法的延伸和改進。在整個隨機森林演算法的過程中,有兩個隨機過程,第一個就是輸入資料是隨機的從整體的訓練資料中選取一部分作為一棵決策樹的構建,而且是有放回的選取;第二個就是每棵決策樹的構建所需的特徵是從整體的特徵集隨機的選取的,這兩個隨機過程使得隨機森林很大程度上避免了過擬合現象的出現。

演算法過程:

1、從訓練資料中選取n個資料作為訓練資料輸入,一般情況下n是遠小於整體的訓練資料N的,這樣就會造成有一部分資料是無法被去到的,這部分資料稱為袋外資料,可以使用袋外資料做誤差估計。

2、選取了輸入的訓練資料的之後,需要構建決策樹,具體方法是每一個分裂結點從整體的特徵集M中選取m個特徵構建,一般情況下m遠小於M。

3、在構造每棵決策樹的過程中,按照選取最小的基尼指數進行分裂節點的選取進行決策樹的構建。決策樹的其他結點都採取相同的分裂規則進行構建,直到該節點的所有訓練樣例都屬於同一類或者達到樹的最大深度。

4、 重複第2步和第3步多次,每一次輸入資料對應一顆決策樹,這樣就得到了隨機森林,可以用來對預測資料進行決策。

5、 輸入的訓練資料選擇好了,多棵決策樹也構建好了,對待預測資料進行預測,比如說輸入一個待預測資料,然後多棵決策樹同時進行決策,最後採用多數投票的方式進行類別的決策。

 

1. 在構建決策樹的過程中是不需要剪枝的。

2. 整個森林的樹的數量和每棵樹的特徵需要人為進行設定。

構建決策樹的時候分裂節點的選擇是依據最小基尼係數的。

相關文章

程式語言 最新文章