NO IMAGE

640?wx_fmt=png

編者注:想要了解更多機器學習與深度學習方面最新進展,請檢視2017年7月12 – 15日在北京舉行的Strata資料大會

我們已經談論資料科學和資料科學家有10年了。雖然對“資料科學家”的含義總是存在一些爭議,但是我們看到了許多大學、線上學院和培訓機構都已經提供資料科學的課程,並給予碩士學位、資格認證等等你能想到的名字。當我們只看統計資料時,事情是比較簡單的。但簡單並不總意味著健康,如果僅僅只是看對於資料科學家的需求,資料科學專案的多樣性是不會展現出來的。

隨著資料科學領域的發展,出現了不少很差的專業分類。企業會使用“資料科學家”和“資料科學團隊”來描述多種角色,包括:

  • 進行臨時性分析和報告(包括BI和業務分析)的人員

  • 負責統計分析和建模的人。他們在許多情況下會進行正式的實驗和測試

  • 越來越多的使用Notebook開發原型的機器學習建模者

而這個列表裡並不包括DJ Patil和Jeff Hammerbacher這樣思考和創造“資料科學家”這個詞的人:即從資料來構建產品的人。這些資料科學家比較類似機器學習建模者,除了他們構建的東西:他們是以產品為中心,而不是研究人員。它們通常工作於很多資料產品。無論是什麼角色,資料科學家不僅僅是統計學家。他們通常擁有科學博士學位,並擁有處理大量資料的實踐經驗。他們幾乎總是很好的程式設計師,而不僅僅是R或其他一些統計軟體包的專家。他們瞭解資料採集、資料清理、原型設計、將原型轉化為生產系統、產品設計、建立和管理資料基礎架構等。實際上,他們原來是矽谷“獨角獸”的原型:罕見而且很難僱用。

重要的不是我們要有明確定義的專業。在蓬勃發展的領域,總是會有巨大的灰色地帶。使“資料科學”如此強大的核心是認識到資料比精算統計、商業智慧和資料倉儲更強大。打破將資料人員與機構的其他部分(軟體開發、營銷、管理、人力資源等)分離的孤島是資料科學的獨特之處。其核心概念是資料適用於所有事情。資料科學家的首要任務是收集和使用所有資料。沒有什麼部門可以例外。

當找不到這些獨角獸時,我們就把他們擁有的技能分解成了不同的專業。進而,當資料科學誕生後,這些技能人員開始出現。我們突然開始看到了資料工程師。資料工程師並不主要是數學家或統計學家,儘管他們對數學和統計學也不陌生。他們並不主要是軟體開發人員,儘管他們對軟體開發也不陌生。資料工程師負責資料技術棧的操作和維護。他們可以把在膝上型電腦上開發的原型匯入在生產系統中,並可靠地執行。他們負責瞭解如何構建和維護Hadoop或Spark群集,以及資料生態系統的其他工具:資料庫(如HBase和Cassandra),流式計算資料平臺(Kafka、Spark Streaming、Apache Flink )和其他更多的部件。他們知道如何使用和運維雲基礎設施,能充分利用Amazon Web Services、Microsoft Azure和Google Compute Engine等雲平臺。

現在我們已經進入了“資料科學”的第二個十年,並且機器學習現在已經逐漸自成一體。我們看到了“資料工程師”的逐步演進。2015年一篇來自Google被廣泛引用的文章強調了這樣一個事實,即現實世界的機器學習系統除了分析模型之外還有很多的組成部分。企業開始專注於建立資料產品,並把她們採用的技術投入生產系統中。在任何應用中,嚴格的“機器學習”的部分是相對較小的:(因為)需要有人維護伺服器基礎設施,監控資料採集管道,確保有足夠的計算資源等。為此,我們開始聽到更多的企業組建機器學習工程師團隊。但這並不是一個全新的專業,因為機器學習(特別是深度學習)在資料科學界快速的擴散,資料工程師一定要向前看一步。但是如何區分一個機器學習工程師和資料工程師?

在一定程度上,機器學習工程師會做軟體工程師(和好的資料工程師)一直做的工作。以下是機器學習工程師的幾個重要特點:

640?wx_fmt=jpeg

圖1 圖片由Ben Lorica提供
  • 他們比典型的資料科學家有更強的軟體工程技能。機器學習工程師能夠與維護生產系統的工程師(有時就在同一個團隊中)配合工作。他們瞭解軟體開發方法、敏捷實踐以及現代軟體開發人員使用的各種工具:從Eclipse和IntelliJ等IDE到持續部署管道的元件等。

  • 由於他們的重點是使資料產品在生產環境中工作,所以他們會思考周翔,並權衡日誌記錄或A / B測試基礎架構等元件。

  • 他們能夠針對監控生產系統中的資料產品的具體問題快速反應。有很多應用程式監控的資源,但是機器學習有進一步的要求。資料管道和模型可能會過時,需要重新訓練。或者可能會受到對手的某些方式的攻擊,這些方式對傳統的Web應用程式來說可能是無意思的。機器學習系統是否可以通過破壞供給它的資料的管道來誤導?是可以的。而機器學習工程師將需要知道如何檢測到這些破壞。

  • 深度學習的興起導致了一個相關但更專業的職位:深度學習工程師。我們也見到了“DataOps”,儘管對於這些術語意味著什麼似乎沒有達成一致的意見(到目前為止)。

機器學習工程師參與軟體架構和設計,他們也瞭解A / B測試的做法。但更重要的是,他們不僅僅是“瞭解”A / B測試,他們還知道如何在生產系統上進行A / B測試。他們瞭解日誌和安全性等相關的問題;他們知道如何使日誌資料對資料工程師有用。這裡沒有什麼是特別新的東西:這是角色的深化,而不是變化。

機器學習與“資料科學”有什麼不同?資料科學顯然是更具包容性的術語。但是,深度學習的工作方式有很大的不同。想象資料科學家探索資料是很容易的:檢視替代方法和不同的模型來找到一個有用的。像Tukey的《探索性資料分析》這樣的經典書籍為大部分資料科學家們所做的事情設定了基調:探索和分析大量的資料,以找到隱藏在其中的價值。

深度學習顯著地改變了這個模式。你並不直接和資料工作。你知道你想要的結果,但是你會讓程式發現它。你想構建一個能打敗最好的圍棋冠軍的機器,或者正確地標記照片,或是在語言之間進行翻譯。在機器學習中,這些目標是不能通過仔細的探索來實現的。在許多情況下,有太多資料可以在太多的意義上探索,並且維度非常多(圍棋的維度是什麼?或是一種語言的維度是什麼?)。機器學習的未來希望是它能自己構建模型:它自己進行資料探勘和調優。

因此,資料科學家也不會做太多的資料探索。他們的目標不是在資料中找到意義:他們認為這個意義已經在那裡了。相反,他們的目標是構建可以分析資料併產生結果的機器:建立一個可用的神經網路,它可以通過調優產生可靠的結果。他們也不太會重視統計結果了。事實上,機器學習的聖盃是“民主化”,即達到機器學習系統可以由某領域的專家而不是AI專業的博士來產生。我們希望圍棋玩家能夠構建下一代AlphaGo,而不是研究者。我們想要由一名說西班牙語的人來構建自動翻譯成西班牙語的引擎。

這種變化對機器學習工程師有著相應的影響。在機器學習中,模型不是靜態的。隨著時間的推移,模型可能會過時。需要有人來監控這個過程,從而在必要時重新訓練模型。這對初始構建系統的開發人員來說是沒有吸引力的工作,但它的技術性很強。此外,這也需要這個人能瞭解監控工具,不過這些工具尚未在資料應用程式中被考慮設計出來。

任何從業的軟體開發人員或IT人員都應該瞭解安全性。據我們所知,還沒有針對機器學習系統的重大攻擊。但他們會成為越來越誘人的目標。機器學習有哪些新型別的漏洞存在?是否有可能對訓練資料“投毒”,或是強制系統在不應該的時候重新訓練模型?因為機器學習系統是自我訓練的,我們應該考慮到會出現全新型別的漏洞。

隨著工具變地越來越好,我們將會看到更多的資料科學家可以將結果轉變為生產系統。雲環境和SaaS工具使資料科學家更容易將其資料科學原型部署到生產系統中。相應的開源工具,如Clipper和Ground(加州大學伯克利分校的RISE實驗室的新專案),也開始出現。但是,我們仍然需要資料工程師和機器學習工程師:他們有資料科學和機器學習方面知識,瞭解如何在生產系統中部署和執行資料產品,知道如何應對機器學習產品面臨的挑戰。他們是終極的“機器學習迴圈中的人類”。

相關資源:

  • 《什麼是資料科學》?

  • 《什麼是實踐中真正在用的資料科學系統?》,Mikio Braun介紹如何將資料科學引入生產系統中

  • “當模型開始搗蛋:在生產系統中使用機器學習的難得的經驗教訓”。即將到來的“Strata資料”紐約大會上的一個演講

  • 《成為一名機器學習工程師》

  • 《資料柔道——將資料轉換成產品的藝術》,DJ Patil著

640?wx_fmt=jpeg

Ben Lorica是O’Reilly Media的首席資料科學家和資料主題內容策略的主管。他已經在多個領域裡(包括直銷市場、消費者和市場研究、精準廣告、文字挖掘和金融工程)進行了商業智慧、資料探勘、機器學習和統計分析的工作。他之前曾效力於投資管理公司、網際網路創業企業和金融服務公司。

640?wx_fmt=jpeg

Mike Loukides是O’Reilly Media負責內容策略的副總裁。他編輯了很多非Windows程式設計的廣受好評的技術書籍。特別是,他對程式語言、Unix和其上的應用、系統和網路管理感興趣。Mike是《系統效能調優》和《Unix上的強大工具》的作者之一。近年來,它關注於資料和資料分析領域、分析語言(如R)、數學、Octave以及思考如何讓書籍更加社交化。

This article originally appeared in English: “What are machine learning engineers?”.


Strata Data Conference北京站大會即將召開——

有需求的同學還請抓緊時間,

點選二維碼即可登入會議官網報名。

640?wx_fmt=png