特徵工程

Softmax的通俗講解

0 前言 Softmax在機器學習中應用非常廣泛,尤其在處理多分類問題,分類器最後的輸出單元需要Softmax 函式進行數值處理。但是剛剛接觸機器學習的同學可能對Softmax的特點及好處並不理解,當你瞭解以後會發現,Softmax計算簡單,效果顯著。 我們先來直觀看一下,Softmax究竟是什麼意 […]

對於特徵離散化、特徵交叉、連續特徵離散化經典的解釋

原文地址:點選開啟連結 一.網際網路廣告特徵工程 博文《網際網路廣告綜述之點選率系統》論述了網際網路廣告的點選率系統,可以看到,其中的logistic regression模型是比較簡單而且實用的,其訓練方法雖然有多種,但目標是一致的,訓練結果對效果的影響是比較大,但是訓練方法本身,對效果的影響卻不 […]

使用者特徵工程

原文地址:點選開啟連結 這張圖將使用者特徵工程裡的大面基本都囊括了。因為ppt本身做得比較簡單,現在我們試圖針對圖裡的每一項,結合具體的業務場景,做個比較詳細的分析。 1.原始資料提取 原作者畫圖的時候將第一項命名為特徵提取,我覺得作者想表達的本意應該是從哪獲得相關資料,所以叫原始資料提取可能更為合 […]

連續特徵離散化的方法

在FFM演算法編碼之前突然考慮到標準化的問題,例如大多數的屬性都是0-1,出現的部分連續屬性比如價格可能會很大,這些的情況會不會影響FFM的結果。 首先在網上搜了一下,連續特徵離散化處理起到的效果是什麼,這裡引用一下知乎的回答 作者:嚴林 連結:https://www.zhihu.com/quest […]

(通俗理解)機器學習中 L1 和 L2 正則化的直觀解釋

機器學習中,如果引數過多,造成模型過於複雜,容易造成過擬合(overfiting),即模型在訓練樣本資料上表現的很好,但在實際測試樣本上表現的較差,即不具有很強的泛化能力。為了避免過擬合,最常用的一種方法是使用正則化,例如 L1 和 L2 正則化,分別對應於迴歸分析中的Lasso迴歸和Ridge迴歸 […]

機器學習裡資料預處理及特徵工程總結

         機器學習裡有一句名言:資料和特徵決定了機器學習的上限,而模型和演算法的應用只是讓我們逼近這個上限。這個說法形象且深刻的提出前期資料處理和特徵分析的重要性。這一點從我們往往用整個資料探勘全流程60%以上的時間和精力去做建模前期的資料處理和特徵分析也能看出。那麼疑問來了,這超過60%時 […]

使用者特徵工程詳細解讀

在網上找到了美團一位叫付晴川同學些的ppt,裡面有一幅描述使用者特徵工程的圖,感覺總結得還是比較到位的。現在把圖片貼出來: 這張圖將使用者特徵工程裡的大面基本都囊括了。因為ppt本身做得比較簡單,現在我們試圖針對圖裡的每一項,結合具體的業務場景,做個比較詳細的分析。 1.原始資料提取 原作者畫圖的時 […]

一文讀懂特徵工程

獨家|一文讀懂特徵工程 本文結構 1. 概述 機器學習被廣泛定義為“利用經驗來改善計算機系統的自身效能”。事實上,“經驗”在計算機中主要是以資料的形式存在的,因此資料是機器學習的前提和基礎。資料來源多種多樣,它可以是結構資料,如數值型、分型別,也可以是非結構資料,如文字、語音、圖片、視訊。對於所有機 […]