NO IMAGE

至頂網軟體頻道訊息:繼大資料熱之後,以深度進修為代表的人工智慧成為當下最為熱點的手藝,越來越多的企業已經或者正在預備進軍深度進修,特別是那些已經在大資料規模投入了重金,建立起了複雜的大資料叢集的公司,由於有了大資料的這個根本,在深度進修之路上更為積極和主動。

不外,對付其中一些初涉人工智慧手藝的公司,要想從深度進修手藝受益並不隨意。此時,很是希望有一款簡單好用的深度進修框架,基於此可以快速開發本身的深度進修應用,從而儘快從人工智慧這項手藝中受益。好在使用者的這一希望並非夢想,今天市場上已經有這類手藝處理方案,英特爾去年開源的大資料深度進修框架BigDL就是其中之一,並且是其中的佼佼者。據悉,BigDL如今已經被使用者遍及認可,在不少企業級應用中闡揚重要浸染。

簡化Hadoop使用者的AI之路

英特爾是晶片行業的龍頭老邁,這一點人所共知。而不少人不體味的是,英特爾仍是大量軟體研發人員開發出不少優秀的軟體產物,其中除了一些為優化晶片機能的函式庫之外(比如計較函式庫 Math Kernel Library),也網羅一些應用軟體,比如大資料。BigDL是英特爾在大資料規模開發的浩繁軟體中的一個。

BigDL是一個基於Apache Spark的開源分散式深度進修框架,於2016年12月對外正式公佈。“我們的目的是讓深度進修和大資料平臺可以無縫、很是隨意地連繫在一起,使得深度進修更易於被大資料的社群和資料科學的社群使用。”英特爾高階首席工程師、大資料手藝全球CTO戴金權談及研發這個軟體的緣故緣由時表示。

戴金權告訴至頂網記者,這款產物首要面向使用Hadoop停止大資料的儲存和分析措置的使用者。它們在Hadoop上有過較大投入,擁有大量資料集儲存在儲存在Hadoop叢集中。若是想把持資料停止深度進修的練習,通常必要把這些資料匯出,然後停止措置。這個過程耗時並且投資不小,BigDL的目的就是讓這些使用者可以直接在Hadoop平臺上停止深度進修的練習。

“在真正的消費情形傍邊,良多時辰資料量是非常複雜的,要做很是多的資料清洗、資料措置工作。這些消費資料通常儲存在大資料叢集裡,或者是分散式檔案體系HDFS或者是分散式表儲存Hbase,叢集規模可能達幾千臺、幾萬臺。若是再設立一個零丁的叢集專門做深度進修,首先要做的工作就相稱於要把這些資料從幾千臺、幾萬臺大資料叢集拷貝到新的叢集上,然後再停止分析。並且這還不是一個一次性的工作,由於資料在不竭的變化中,必要對資料停止不合的措置和分析,這個資料拷貝的過程成為了很是大的瓶頸。

戴金權詮釋說,英特爾要做的就是讓使用者使用BigDL,如許就可以直接在現有的大資料叢集上用深度進修手藝來分析大資料,而不必要對資料停止任何拷貝。而之所以選擇基於Apache Spark來開發BigDL,是由於Apache Spark是今天在大資料分析規模最領先、使用最遍及的大資料分析框架。“Apache Spark本身供給了一個很是高機能的分析引擎——一個基於記憶體的低延時、分散式資料分析的引擎,在上面使用者可以停止各類各樣的資料分析,良多Hadoop的應用都接納了Spark。” 戴金權說。

降低AI的進修本錢

除了本錢節約之外,BigDL的另一個特點是可以大大降低Hadoop使用者的AI進修本錢,比如,經由過程重用Hadoop平臺上的現有大資料工具和流程,網羅工作流的辦理、資源辦理等,如答應以大大進步使用者深度進修應用的開發服從以及應用安排的服從。

“當深度進修被越來越多的人所接收後就希望它可以應用在消費中,而在構建新的人工智慧深度進修應用時,那些通俗大資料的使用者雖然擁有大資料工程師或者資料科學家、資料分析師,但這些人很可能只會寫SQL,並不擅長程式設計程式碼,也不是深度進修的專家,他們曩昔首要使用Hadoop、Spark平臺來辦理資料,對資料停止SQL措置、流分析,或者做必定的資料發掘、機械進修、圖分析等。”戴金權表示,這些人使用的一整套工具、架構和深度進修社群的工具、架構之間是有“斷層”的,有了BigDL之後這些人就可以順遂填補這個“斷層”。

戴金權說,英特爾希望藉助BigDL來輔佐使用者,特別是大量的通俗使用者來跨越上述斷層,可以讓他們使用鬥勁熟悉和體味、對他們來說也加倍友愛的一個軟硬體架構,來讓深度進修手藝在他們現有的應用情形傍邊落地。

據悉,BigDL於2016年12月在GitHub上公佈了第一個版本後,在接下來差不多一年多的時辰公佈了四個主版本。其中除英特爾外,BigDL也收到浩繁社群使用者的程式碼進獻,比如阿里巴巴等等。而在使用者方面,今朝,BigDL四個版本都有效戶在使用,普及良多行業使用者,也不乏著名使用者。比如在國外有AWS、Azure、IBM、MasterCard,在國內有阿里巴巴、京東、金山雲等。“

“我們很自傲,我們認為BigDL是今朝為止所看到的在大資料平臺上開發深度進修應用的最好的框架和平臺。” 戴金權說。

很顯然,戴金權所說的這份自傲並非盲目。

末了值得一提的是,英特爾其其實人工智慧整個的手藝棧上是做了很是多的工作,英特爾不息努力於供給端到端全棧人工智慧處理方案,從裝置端到蒐集到資料中心到雲端,從底層硬體再到上層的優化計較庫,比如英特爾的數學焦點函式庫MKL(Math Kernel Library),這是英特爾平臺上最快的數學計較庫,還有英特爾Nervana Graph計較庫等,英特爾在上面也做了大量針對英特爾平臺的優化工作,從TensorFlow到Caffe、Caffe2、AlexNet等,固然也網羅基於Spark上的BigDL分散式深度進修的計較庫等。

推薦一個大資料學習資料群:119599574每天晚上20:10都有一節【免費的】大資料直播課程,專注大資料分析方法,大資料程式設計,大資料倉儲,大資料案例,人工智慧,資料探勘都是純乾貨分享。