NO IMAGE
分類: Machine Learning2013-05-08
17:52 1415人閱讀 評論(0) 收藏 舉報

        最近在看Ng的深度學習教程,看到self-taught learning的時候,對一些概念感到很陌生。作為還清技術債的一個環節,用半個下午的時間簡單搜了下幾個名詞,以後如果會用到的話再深入去看。

        監督學習在前一篇部落格中討論過了,這裡主要介紹下遷移學習、自我學習。因為監督學習需要大量訓練樣本為前提,同時對訓練樣本的要求特別嚴格,要求訓練樣本與測試樣本來自於同一分佈。要是滿足不了這要求咋辦?那您看看下面幾種學習方法能不能幫上忙吧。

  •  遷移學習 transfer learning

        有時候困擾大家的一個問題在於訓練資料的標定。這將會耗費大量的人力與物力。另外,機器學習假設訓練資料與測試資料服從相同的資料分佈。然而許多情況下,這種同分布假設並不滿足。通常可能發生的情況如訓練資料過期,也就是好不容易標定的資料要被丟棄,而另外有一大堆新的資料要重新標定。遷移學習的目標是將從一個環境中學到的知識用來幫助新環境中的學習任務。講白了,就是當前只有少量新的標記的資料,但是有大量舊的已標記的資料(甚至是其他類別的有效資料),這時通過挑選這些舊資料中的有效的資料,加入到當前的訓練資料中,訓練新的模型。用一句原話則是:

       Transfer learning is what happens when someone finds it much easier to learn to play chess having already learned to play checkers, or to recognize tables having already learned to recognize chairs; or to learn Spanish having already learned Italian。

       遷移學習的代表作是《Boosting for Transfer Learning》有關它的介紹可以看這裡,我就不多說啥了,多的我也不懂。

  • 自我學習 self-taught learning 

        自我學習和半監督學習一樣,當前手頭上只有少量訓練樣本,但是周圍手頭上還有大量無標註樣本。舉一個經典的例子,分離大象和犀牛。對於監督學習來說,我們手頭有大量大象的樣本和犀牛的樣本,接下來訓練分類器,進行分類,大家都知道的。對於遷移學習,則是指我們手頭上有大量羊的樣本和馬的樣本(已標記),少量的大象和犀牛的樣本,接下來就要從羊和馬的樣本中選出有效的樣本分別加入到大象和犀牛的標記樣本中,然後再用監督學習的方法訓練分類器。而非監督學習,則是手上僅有少量大象和犀牛的已標記樣本,另外有一堆大象和犀牛的沒有標記的資料(注意它們中要麼是大象要麼是犀牛,沒有其他物種)。半監督學習就是利用這些樣本訓練分類器,實現分類。而自我學習,同樣是手上僅有少量大象和犀牛的已標記樣本,另外有一大堆自然影象。所謂自然影象,就是有大象和犀牛的圖片,還有各種其他物種的圖片。自我學習比半監督學習更適合實際場景—–哪有一堆只有大象和犀牛的圖片給你呢?而自然影象的來源更加廣泛,可以從網際網路上隨便下載。

     

       自我學習實現的方法如下圖所示。首先通過未標註的自然影象提取一組特徵(如稀疏字典,sparse coding,很神奇的一個東西,以後還會再研究)。這樣任何一個標註和未標註的影象都可以用這組特徵表示出來。由於每一個標註後的樣本都被表示成了這些特徵——注意這些特徵捕捉了影象的高層結構,將表示後的標註的樣本訓練一個分類器進行分類。

 
參考資料:
1.   Boosting for transfer learning
2.   Self-taught learning: transfer learning from unlabeled data

 

遷移學習

分類: 資料探勘2013-11-04
10:51 220人閱讀 評論(0) 收藏 舉報
作者: 薛貴榮
       在傳統的機器學習的框架下,學習的任務就是在給定充分訓練資料的基礎上學習一個分類模型,然後利用這個學習到的模型對測試文件進行分類與預測。然而,機器學習演算法在當前網際網路應用研究中存在一個關鍵問題,即一些新出現的領域中大量訓練資料非常稀缺。隨著網際網路的高速發展,Web 應用領域的發展非常快速,大量新的領域不斷湧現,從傳統的新聞,到網頁,到圖片,再到部落格、播客等。首先,傳統的機器學習需要對每個領域都標定大量訓練資料,這將會耗費大量的人力與物力;而沒有大量的標註資料,會使很多與學習相關研究與應用無法開展。其次,傳統的機器學習假設訓練資料與測試資料服從相同的資料分佈。然而,在許多情況下,這種同分布假設並不滿足。通常可能發生的情況,如訓練資料過期。這往往需要去重新標註大量的訓練資料以滿足訓練的需要,但標註新資料是非常昂貴的,需要大量的人力與物力。從另外一個角度看,如果有了大量的、在不同分佈下的訓練資料,完全丟棄這些資料也是非常浪費的。如何合理地利用這些資料就是遷移學習(transfer
learning)主要解決的問題。遷移學習可以從現有的資料中遷移知識,用來幫助將來的學習。遷移學習的目標是將從一個應用場景中學到的知識,用來幫助新的應用場景中的學習任務。因此,遷移學習不會像傳統機器學習做同分布假設。

在遷移學習方面的工作目前可以分為三個部分,即同構空間下基於例項的遷移學習、同構空間下基於特徵的遷移學習與異構空間下的遷移學習。研究指出,基於例項的遷移學習有更強的知識遷移能力,基於特徵的遷移學習具有更廣泛的知識遷移能力,而異構空間的遷移具有廣泛的學習與擴充套件能力。這幾種方法各有千秋。

1  同構空間下基於例項的遷移學習

基於例項的遷移學習的基本思想是,儘管輔助訓練資料和源訓練資料或多或少會有不同,但是輔助訓練資料中應該還會存在一部分比較適合用來訓練一個有效的分類模型,並且適應測試資料。於是,學習的目標就是從輔助訓練資料中找出那些適合測試資料的例項,並將這些例項遷移到源訓練資料的學習中。在基於例項的遷移學習方面,文獻 [1] 推廣了傳統 AdaBoost 演算法,提出一種具有遷移能力的 Boosting 演算法——Tradaboosting,使之具有遷移學習的能力,從而能夠最大限度地利用輔助訓練資料來幫助目標的分類。其中關鍵想法是,利用
Boosting 的技術過濾輔助資料中那些與源訓練資料最不像的資料。其中,Boosting 的作用是建立一種自動調整權重的機制,於是重要的輔助訓練資料的權重將會增加,不重要的輔助訓練資料的權重將會減小。調整權重之後,這些帶權重的輔助訓練資料將會作為額外的訓練資料,與源訓練資料一起提高分類模型的可靠度。

基於例項的遷移學習只能發生在源資料與輔助資料非常相近的情況下。但是,當源資料和輔助資料差別比較大時,基於例項的遷移學習演算法往往很難找到可以遷移的知識。即便有時源資料與目標資料在例項層面上並沒有共享一些公共的知識,它們可能會在特徵層面上有一些交集。因此學者們研究了基於特徵的遷移學習,討論的是如何利用特徵層面上公共的知識進行學習的問題。

2  同構空間下基於特徵的遷移學習

在基於特徵的遷移學習研究方面,多種學習演算法被提出,如 CoCC 演算法 [2]、TPLSA 演算法 [3]、譜分析演算法 [4] 與自學習聚類演算法 [5] 等。這些演算法的基本思想是使用互聚類演算法同時對源資料與輔助資料進行聚類,得到一個共同的特徵表示,這個新的特徵表示優於只基於源資料的特徵表示。通過把源資料表示在這個新空間裡,以實現遷移學習。基於特徵的有監督遷移學習與基於特徵的無監督遷移學習都可以應用這個思想解決。

2.1  基於特徵的有監督遷移學習

基於特徵的有監督遷移學習方面的工作的一個例子是基於互聚類的跨領域分類 [2],這個工作考慮的問題是:當給定一個新的、不同的領域,標註資料及其稀少時,如何利用原有領域中含有的大量標註資料進行遷移學習的問題。在基於互聚類的跨領域分類這個工作中,跨領域分類問題定義了一個統一的資訊理論形式化公式,其中基於互聚類的分類問題轉化成對目標函式的最優化問題。在文獻 [2] 的模型中,目標函式定義為源資料例項、公共特徵空間與輔助資料例項間互資訊的損失。

2.2  基於特徵的無監督遷移學習——自學習聚類

自學習聚類演算法 [5] 屬於基於特徵的無監督遷移學習方面的工作。其考慮的問題是現實中可能有標記的輔助資料都難以得到,在這種情況下如何利用大量無標記資料輔助資料進行遷移學習的問題。自學習聚類的基本思想是通過同時對源資料與輔助資料進行聚類得到一個共同的特徵表示,而這個新的特徵表示由於基於大量的輔助資料,所以會優於僅基於源資料而產生的特徵表示,從而對聚類產生幫助。

上面提出的這兩種學習策略解決的都是源資料與輔助資料在同一特徵空間內的基於特徵的遷移學習問題。當源資料與輔助資料所在的特徵空間中不同時,學者們還研究了跨特徵空間的基於特徵的遷移學習,它也屬於基於特徵的遷移學習的一種。

3  異構空間下的遷移學習——翻譯學習

翻譯學習 [6-7] 致力於解決源資料與測試資料分別屬於兩個不同特徵空間下的情況。翻譯學習的方法基於使用那些有兩個視角的資料來構建溝通兩個特徵空間的橋樑。雖然這些多視角資料可能不一定能作為分類用的訓練資料,但是,它們可以構建翻譯器。通過這個翻譯器,可以結合與擴充套件各種傳統的學習演算法,讓它們有跨特徵領域學習的能力。例如,文獻 [6] 使用近鄰演算法和特徵翻譯結合在一起用一個統一的語言模型進行學習與分類;文獻 [8] 擴充套件了傳統的貝葉斯分類的框架,通過引入由翻譯器利用文字領域內的知識進行影象分類;文獻
[9] 將圖文特徵翻譯器與文字資料同時看成對本領域特徵的約束,擴充套件了 PLSA 演算法進行聚類。

翻譯學習除了在如分類聚類問題的傳統機器學習領域中有很多應用之外,在網路資料探勘中也有廣闊的應用前景。使用翻譯學習,可以在不同的特徵空間之間進行知識的遷移。例如在網際網路線上廣告領域,文獻 [10] 提出了在沒有任何輔助文字資訊的情況下,對影象依照它的內容進行廣告的問題,稱為視覺內容關聯廣告推薦(visual contextual advertising)問題。針對這個問題,文獻 [10] 在之前的研究基礎上,繼續使用網際網路上大量存在的共同出現資料作為橋樑,用一個特徵對映(feature mapping)建立視覺影象空間與文字空間的關係,然後通過把圖片“翻譯”到文字空間,同時利用一個統一的生成模型將“翻譯”與“推薦廣告”兩部分合成一體,最後達到文字廣告的推送。

4  結束語

遷移學習是一個新興的機器研究領域,其研究與應用都是處於快速發展階段。對遷移學習的研究必將大大提高學習演算法的普適性,推動機器學習的更廣泛應用。

參考文獻:

[1]Dai Wenyuan, Yang Qiang, Xue Guirong,et al. Boosting for transfer learning[C]//The Twenty-Fourth International Conference on Machine Learning (ICML 2007).Corvallis, Oregon:[s.n.], 2007:193-200.

[2]Dai Wenyuan, Xue Guirong, Yang Qiang, et al. Co-clustering based classification for out-of-domain documents[C]//The Thirteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2007). San Jose, California:[s.n.], 2007:210-219.

[3]Xue Guirong, Dai Wenyuan, Yang Qiang, et al. Topic-bridged PLSA for cross-domain text classification[C]//The Thirty-first International ACM SIGIR Conference on Research and Development on Information Retrieval (SIGIR 2008). Singapore:[s.n.], 2008:627-634.

[4]Ling Xiao, Dai Wenyuan, Xue Guirong, et al. Spectral domain-transfer learning[C]//The Fourteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2008). Las Vegas, Nevada:[s.n.], 2008:488-496.

[5]Dai Wenyuan, Yang Qiang, Xue Guirong, et al. Self-taught clustering[C]//The Twenty-Fifth International Conference on Machine Learning (ICML 2008). Helsinki:[s.n.], 2008:200-207.

[6]Dai Wenyuan, Chen Yuqiang, Xue Guirong, et al. Translated learning: transfer learning across different feature spaces[C]// Advances in Neural Information Processing Systems 21 (NIPS 2008). Vancouver, British Columbia:[s.n.], 2008.

[7]Ling Xiao, Xue Guirong, Dai Wenyuan, et al . Can Chinese Web pages be classified with English data source?[C]//Seventeenth International World Wide Web Conference (WWW 2008). Beijing:[s.n.], 2008:969-978.

[8]Lin Yuan, Chen Yuqiang, Xue Guirong et al. Text-aided image classication: using labeled text from Web to help image classication[C]//The 12th Asia-Pacific Web Confernence (APWeb 2010). Busan:[s.n.], 2010:267-273.

[9]Yang Qiang, Chen Yuqiang, Xue Guirong, et al. Heterogeneous transfer learning for image clustering via the social Web[C]// The Conference of the 47th Annual Meeting of the ACL (ACL 2009).Suntec:[s.n.], 2009:1-9.

[10]Chen Yuqiang, Jin Ou, Xue Guirong, et al. Visual contextual advertising: bringing textual advertisements to images[C]// Proceedings of The 24th AAAI Conference on Artificial Intelligence (AAAI 2010). Atlanta:[s.n.], 2010.

作者簡介:薛貴榮,博士,阿里雲端計算公司資深總監,中國人工智慧學會會員;主要研究方向為網際網路搜尋、機器學習、雲端計算。E-mail:[email protected]

 
轉載請註明出處:http://blog.csdn.net/jiang1st2010/article/details/8901261