統計

1/18ページ

《統計學習方法》學習筆記(4)–k近鄰法及常用的距離(or 相似度)度量

一、k近鄰法基礎知識 1. 特徵空間中兩個例項點的距離反應了兩個例項點的相似程度。 2. k近鄰模型三要素 = 距離度量(有不同的距離度量所確定的最鄰近點不同) k值的選擇(應用中,k值一般取一個比較小的值,通常採用交叉驗證法來確定最優k值) 分類決策規則(往往是多數表決規則(majority vo […]

【統計學習方法】k近鄰 kd樹的python實現

前言 k近鄰可以算是機器學習中易於理解、實現的一個演算法了,《機器學習實戰》的第一章便是以它作為介紹來入門。而k近鄰的演算法可以簡述為通過遍歷資料集的每個樣本進行距離測量,並找出距離最小的k個點。但是這樣一來一旦樣本數目龐大的時候,就容易造成大量的計算。 所以需要將資料用樹形結構儲存,以便快速檢索, […]

中心化和標準化處理

目的:通過中心化和標準化處理,得到均值為0,標準差為1的服從標準正態分佈的資料。 計算過程由下式表示: 下面解釋一下為什麼需要使用這些資料預處理步驟。 在一些實際問題中,我們得到的樣本資料都是多個維度的,即一個樣本是用多個特徵來表徵的。比如在預測房價的問題中,影響房價的因素有房子面積、臥室數量等,我 […]

【GT-安卓應用開發之錯題率統計】

前言:對於學生的答題(學習)情況,資料是直觀的表現,在實際開發中也需要涉及到大量的資料統計與分析,我們經常通過圖表結合來更加直觀的展現資料。         接下來,記錄一下最近做的一個錯題率統計與總成績排行。整個介面是由上半部分的柱形圖來展現錯題記錄,下半部分則是已提交(答題)人員的成績排名。主要 […]

讀《統計自然語言處理》——語義消除歧義

我們知道很多詞語都有很多意思或語義,而在具體的語境中,詞語有某種特定的意思。而獨立於上下文來考慮詞語意思,語義一般都會出現語義歧義。統計自然語言處理不得不考慮如何消除歧義問題。 消除歧義的任務就是確定一個多義詞在一個特定的語境中使用哪一種語義。通過考慮詞彙使用的上下文完全可以確定其具體的語義。那麼如 […]

統計學習方法-牛頓法和擬牛頓法

牛頓法和擬牛頓法   牛頓法和擬牛頓法是求解無約束最優化問題的常用方法,有收斂速度快的優點。牛頓法是迭代演算法,每一步需要求解目標函式的海賽矩陣的逆矩陣,計算比較複雜。擬牛頓法通過正定矩陣近似海賽矩陣的逆矩陣或海賽矩陣,簡化了計算過程。 一、背景 Taylor展式 若f(x)二階導連續,將f(x)在 […]

統計學習方法——K近鄰模型

0. 寫在前面 在這一講的討論班中,我們將要討論一下K近鄰模型。可能有人會說,K近鄰模型有什麼好寫的,那分明就是一個最簡單的機器學習模型,哦,不,連機器學習也算不上的演算法吧。但是這裡,我想提醒的是,我們要討論的,不僅僅是簡單的K近鄰模型,而是和它相關的一些有困惑的話題。 1. K近鄰定義 k近鄰演 […]