es資料探勘

資料探勘十大演算法(九):樸素貝葉斯原理、例項與Python實現

一、條件概率的定義與貝葉斯公式 二、樸素貝葉斯分類演算法 樸素貝葉斯是一種有監督的分類演算法,可以進行二分類,或者多分類。一個資料集例項如下圖所示: 現在有一個新的樣本, X = (年齡:<=30, 收入:中, 是否學生:是, 信譽:中),目標是利用樸素貝葉斯分類來進行分類。假設類別為C(c1 […]

資料探勘中聚類演算法比較研究

《計算機應用與軟體》2003 Vol.20 No.2 : 5~6 資料探勘中聚類演算法比較研究張紅雲 劉向東 段曉東 苗奪謙 馬垣(同濟大學電子與資訊工程學院 上海 200092)(大連民族學院計算機系 大連 116600)(鞍山科技大學電腦科學與工程學院 鞍山 114002)   摘 要:聚類演算 […]

資料探勘(六)模型評估 Precision,Recall 和 F1Score

衡量模型質量 通過訓練得到模型後,我們就可以用這個模型,來進行預測了(也就是把資料輸入到模型中讓模型吐出一個結果)。 預測肯定能出結果,至於這個預測結果是否是你想要的,就不一定了。 一般來說,沒有任何模型能百分百保證盡如人意,但我們總是追求儘量好。 什麼樣的模型算好呢?當然需要測試。 當我們訓練出了 […]

資料探勘(七)最常用的優化演算法——梯度下降法

學習的目標 每一個機器學習模型都有一個目標函式,而學習的目標,就是最小化目標函式。 直觀而言,當我們已經獲得了一個函式,最小化該函式其實就是,在其自變數取值範圍內,找到使得因變數最小的那個自變數取值點。 是不是所有函式都能夠在自變數取值範圍內找到因變數最小值呢?顯然不是。 比如,這個多項式函式:y= […]

資料探勘(十)樸素貝葉斯分類器——條件概率的引數估計

不再簡單地將頻率當作概率 現在我們要採用另外一種方式,通過該特徵在資料樣本中的分佈來計算該特徵的條件概率。 這個訓練過程,要用到概率統計中引數估計(Parameter Estimation)的方法。 極大似然估計 在估計概率分佈引數這件事情上,貝葉斯學派和頻率學派各自有一套符合自身對世界設想的引數估 […]

資料探勘(11)邏輯迴歸——用來做分類的迴歸模型

迴歸模型做分類 從關於分類與迴歸的定義來看,分類模型和迴歸模型似乎是涇渭分流的。輸出離散結果的就是用來做分類的,而輸出連續結果的,就用來做迴歸。 我們前面講的兩個模型:線性迴歸的預測結果是一個連續值域上的任意值,而樸素貝葉斯分類模型的預測結果則是一個離散值。 在二維座標中形成 S 形曲線: 邏輯迴歸 […]

資料探勘(12)決策樹——既能分類又能迴歸的模型

決策樹 前面博文介紹了線性迴歸和樸素貝葉斯分類模型。前者只能做迴歸,後者只能做分類。而決策樹模型既可以用於分類,又可以用於迴歸。 什麼是決策樹 決策樹是一種非常基礎又常見的機器學習模型。 一棵決策樹(Decision Tree)是一個樹結構(可以是二叉樹或非二叉樹),每個非葉節點對應一個特徵,該節點 […]