為什麼持續學習是人工智慧的關鍵

NO IMAGE

編者注:即將在舊金山召開的人工智慧會議上將會有半天的關於增強學習的背靠背輔導課:用Ray來開發增強學習的應用增強學習介紹


隨著越來越多的公司開始在不同的情景中試驗和部署機器學習,展望未來的系統大致的樣子應該是一個好主意。現在機器學習典型的順序是先收集資料,再學習一些不明顯的模式,最後部署一個演算法來系統地捕捉你所學到的東西。收集、整理和增強正確的資料(尤其是訓練資料)是至關重要的,而且也是那些想使用機器學習的公司的關鍵瓶頸。

我堅定地認為未來的人工智慧系統將依賴於持續學習,而不是離線訓練的演算法。人類是通過這種方法進行學習的,人工智慧系統也將越來越有能力做同樣的事情。想象一下,第一次去辦公室時你在一個障礙物上被絆倒。當你下次訪問這個場景的時候(也許只是幾分鐘以後)你就會知道需要尋找那個絆倒你的物體。

在很多應用和場景裡的學習具有類似的探索性。想象一下,一個與環境互動的機器人會嘗試瞭解要採取哪些動作同時應該避免哪些動作,這樣才能完成一些預先分配的任務。我們已經看到了關於增強學習(RL)的最新應用。在增強學習中,目標是學習如何將觀察和測量對映到一組動作,同時嘗試最大化一些長期的獎勵(增強學習這個術語經常被用來描述一類問題和一組演算法)。雖然深度學習得到了更多的媒體關注,但最近在人工智慧圈裡對增強學習感興趣的有很多。研究人員最近將增強學習應用於遊戲、機器人、自動駕駛汽車、對話系統、文字總結、教育和培訓以及能源利用等方面。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

圖1. 增強學習涉及到學習把測量和觀察對映到行動

正如深度學習正在慢慢地成為資料科學家的工具集的一部分,類似的事情也會在持續學習上發生。但為了讓資料科學家參與進來,工具和演算法都需要變得更容易獲得。這需要一套新的不同於在監督學習中使用的工具和演算法。持續學習還需要一系列工具。這些工具可以執行並分析大量的涉及複雜計算圖的模擬,當然理想情況是在非常短的延遲響應時間下。

0?wx_fmt=jpeg

圖2. 持續學習的典型工具集(或叫“堆疊” ),來源:Ben Lorica

加州大學伯克利分校的一個研究小組最近釋出了一個開源分散式計算框架(Ray),它提供了一些用於增強學習的部分的補充。在複雜的應用程式中(比如自動駕駛汽車)會涉及到多個感測器和測量,因此能夠快速地並行探索和執行模擬的框架會提供使用者一個巨大的優勢。Ray允許使用者並行執行模擬,並提供一個Python API,讓資料科學家可以使用它(Ray本身主要是用寫C 寫的)。當我們在增強學習的語境裡看待Ray的時候,它是針對Python使用者的一個可容錯的通用分散式計算框架。它的建立者讓別人使用Python在Ray之上編寫和執行自己的演算法變得非常簡單,包括使用普通的機器學習模型。

為什麼你需要一個機器學習庫?什麼演算法對持續學習很重要?回想一下,在增強學習中,我們需要學習如何將觀察和測量對映到一組動作中,同時嘗試最大化一些長期的回報。最近的增強學習成功故事主要使用基於梯度的深度學習,但研究人員已經發現,其他的優化策略(比如進化策略)也是有幫助的。與從訓練資料和目標結果開始的監督學習不同的是,在深度學習中只有很少的反饋,所以像神經進化這樣的技術相比傳統的梯度下降有競爭力。還有其他相關的演算法可能成為用於持續學習模型的標準集合的一部分(例如這裡介紹的關於利用最小化反事實後悔方法來進行德州撲克比賽)。Ray的建立者正在組裝一個實現增強學習演算法的通用集合的庫,並提供一個簡單的Python
API供呼叫。

大多數公司仍處在學習如何使用和部署標準的(離線)機器學習的階段,因此也許討論現在持續學習還為時過早。不過現階段就開始討論這個話題的一個重要原因是這些技術對於將人工智慧引入您的機構會變得非常必要。與其他任何新方法或技術一樣,持續學習的起始點都是發現一些應用場景。在這些場景裡持續學習可能比現有的離線訓練方法有優勢。我提供了一些場景,其中持續學習已經被部署或者研究已經表明有希望的結果(出來)。但是這些場景可能與您的機構的運營相去甚遠。已經使用多臂強盜演算法(推薦內容或評估產品)公司可能很快就會發現一些應用場景併成為持續學習的早期採用者。被用於開發人工智慧教學機器人的技術也可能會擴充套件到涉及增加人類工人的其他應用領域(包括軟體工程)。

許多公司正在意識到,在不少場景中機器學習模式在被部署到生產後不久就開始退化。好訊息是,許多人工智慧初創公司正在把持續學習加入他們開發的產品中。你可能沒意識到,你的公司也許會在不久的將來就會開始使用增強學習。

相關資料:

  • Ray:一個面向新興的人工智慧應用的分散式執行框架(Michael Jordan在2017 Strata Data 大會上的主題演講)

  • 機器人的深增強學習(Pieter Abbeel在2016年人工智慧大會的演講)

  • 與人合作的汽車(Anca Dragan在2017年人工智慧大會的主題演講)

  • 增強學習和OpenAI Gym介紹

  • 神經進化(Neuroevolution):一種不一樣的深度學習

  • 增強學習的解釋

This article originally appeared in English: “Why continuous learning is key to AI”.

0?wx_fmt=jpeg

Ben Lorica

Ben Lorica是O’Reilly Media的首席資料科學家和資料主題內容策略的主管。他已經在多個領域裡(包括直銷市場、消費者和市場研究、精準廣告、文字挖掘和金融工程)進行了商業智慧、資料探勘、機器學習和統計分析的工作。他之前曾效力於投資管理公司、網際網路創業企業和金融服務公司。

0?wx_fmt=png