說說2018的大資料智慧發展趨勢與前景
上週,南京大學開設了國內第一家人工智慧學院,機器學習大牛周志華領銜院長,可謂實至名歸。最近幾年,以大資料和人工智慧為代表的前沿資訊科技,備受各界關注,相關領域的風投和創新、創業高燒不退,學術界大牛們紛紛下海,大資料深度學習研究和應用也在逐步落地,就連國務院的支援政策也是一個接一個。還有Facebook扎克伯格和Tesla埃隆馬斯克為代表的大佬們就AI威脅站隊互掐,AlphaGo的成功營銷與Watson的失敗醫療等等…這一波大資料驅動的AI熱潮,發展勢頭強勁。筆者在前文講到過大資料的本質,就像Palantir的公司名一樣,畢竟做“先知”的誘惑太大,而大資料智慧的核心目標就是降低決策過程中的不確定性,希望能預見未來。而通過智慧技術進行前瞻預測是關鍵,不管是物聯網、雲端計算、大資料、人工智慧還是DT(Data Technology)偌大的技術生態,其核心都是為這一目標服務。

大資料智慧,簡單講,就是行業大資料和人工智慧技術的融合。各行各業正在加速變革,以適應大資料智慧技術帶來的挑戰。基於大資料深度學習的阿爾法狗(AlphaGo),不僅僅在圍棋領域戰勝了人類頂尖高手,向醫療健康領域的拓展更是速度驚人,基於深度學習技術的面板癌診斷、眼疾診斷和心臟病預測等已經達到或超過普通醫生的水平。IBM沃森醫療集團的認知人工智慧系統Watson,基於大資料和人工智慧自然語言處理技術,短時間內能自學習數十萬篇醫學論文,從而找出癌症治療的關鍵基因,為個性化健康檢測和精準醫療提供了強大的智慧技術手段。如何搶佔大資料和人工智慧應用高地,同時掌握相關核心技術和智慧財產權,是各國大資料和AI戰略聚焦的重點。下面我們就來看看大資料智慧到底是怎麼回事,為什麼有如此大的吸引力,炒作?泡沫?抑或是大勢所趨。這裡還是要推薦下小編的大資料學習QQ裙:532218147,不管你是小白還是大牛,小編我都歡迎,不定期分享乾貨,包括小編自己整理的一份2018最新的大資料資料和0基礎入門教程,歡迎初學和進階中的小夥伴。在不忙的時間我會給解答

   1 琅琊榜看大資料 

要理解大資料智慧,首先要真正搞明白大資料是什麼?怎麼認識和理解大資料?筆者不想再向大家囉嗦4V還是5V,而是來談談豆瓣排行榜第一的武俠劇《琅琊榜》。為什麼叫《琅琊榜》,是因為有一個高階神祕的大資料公司-琅琊閣,每年都會發布武術高手排行榜單,併為各方提供及時的情報服務。而最神祕的琅琊閣CEO梅長蘇,自然華麗麗地佔據榜首。所謂“琅琊榜首,江左梅郎”是也。當然琅琊榜單和麒麟才子梅長蘇只是琅琊閣這家大資料公司的對外宣傳而已,甚至打出了“得麒麟之才者得天下”的口號。

要理解大資料技術那就得理解琅琊閣的這些榜單到底是怎麼排出來的,我們都知道,現代的各種排行榜,都是以海量資料作為基礎進行統計分析。片頭青山綠水之間的琅琊閣地宮就是座海量大資料中心(分散式儲存),江左盟廣佈天下的分站和盟員就是資料採集端(手機、網站、感測器),而飛鴿傳書就是高速的資料傳輸通道(物聯網、移動網際網路)。當然琅琊閣還有幫隱祕的資料科學家(智慧預測建模),所以才能成就廣為人知的麒麟之才-梅長蘇(琅琊閣CEO),“得麒麟之才者得天下”的關鍵不在於梅長蘇個人,而是他背後的神祕大資料公司琅琊閣(董事長是老閣主)。

 琅琊閣大資料中心

    其實不管是古代諸葛亮、劉伯溫還是幾十年前的林彪,都是善於收集和分析資料的資料科學家。只要掌握足夠的資料和資訊,就能對事物的本質,對時局和對手有足夠的認識,足不出戶而知天下事,見微知著。大資料時代更是這樣,我們每個人的一切都在加速數字化,吃穿住行用,還有我們的身體和思想本身在各大機構的資料中心裡都能找到對應的數字副本,只要能集中這些數字副本,就能從多個層面Copy或Hack任何一個人。萬物互聯和數字化的世界,控制了資訊流就能控制一切,而不僅僅只是獲得商業壟斷優勢,從廣義上講,大資料崇拜的本質是希望壟斷資訊權的控制。當然除了資料,還有對人心的把握,時機的掌控等等,這一系列智慧模型之外的因素也必須加以考量。《琅琊榜》看大資料,歷史就是大資料,觀歷史可知未來。有人先知先覺,有人後知後覺,有人不知不覺,關鍵取決於對大資料智慧的應用和把握!

2 四位一體看大資料智慧

那麼大資料跟智慧是個什麼邏輯關係呢?這就不得不說說其它幾個前沿技術領域。這些年最核心的前沿資訊科技基本可以從物聯網、雲端計算、大資料和人工智慧四個層面加以概括。為什麼這樣講,移動網際網路的興起是大資料時代的分水嶺,移動網際網路之前的PC時代、網際網路時代,傳統的企業資訊化系統也多是小資料或結構化大資料;進入移動網際網路時代之後,特別是android和iphone智慧手機的普及,讓每個人都成為了資料產生器,甚至不需要你輸入,你的位置,關注,社交等都一直在產生海量的資料,還有越來越廣泛的企業移動應用,產生的資料量驚人,可以說沒有移動網際網路的普及我們就無法進入大資料時代,從技術角度講,移動網際網路屬於物聯網技術範疇,物聯網的發展不只是讓人和智慧手機作為資料生產者,更是能讓越來越多機器、電子裝置、感測器、甚至道路建築本身都是資料發生器,萬物互聯數字化的深度和廣度在進一步拓展。

圖2 四位一體看大資料智慧技術

    上述四種前沿資訊科技發展遵循量變到質變規律,如上圖,物聯網、大資料、雲端計算和人工智慧是四位一體發展的(時間有先後,但技術實質性突破都在最近幾年),未來智慧時代的基礎設施、核心架構將基於這四個層面,這種社會演化趨勢也很明顯:從農業時代、工業時代、資訊時代到智慧時代。從物聯網、大資料、雲端計算到人工智慧,一個比一個熱,一個比一個快,一個比一個深入,這是資訊科技發展的大勢,其內在的邏輯聯絡和發展趨勢使然,終極目標直指大資料智慧。四位一體看大資料智慧技術,這就好比我們人體一樣,物聯網(移動網際網路)構造了眼耳鼻舌身等感官,主要功能是負責各類資料的自動採集;大資料是各種物聯感官獲取的感受資訊,資料規模太大之後,需要雲端計算來進行記憶和儲存,反過來雲端計算的平行計算能力也促進了大資料的高效智慧化處理;而基於大資料深度學習的人工智慧就是我們最終獲得的價值規律、認知經驗和知識智慧;當然人工智慧模型的訓練也需要大規模雲端計算資源的支援,構建的智慧模型也能反作用於物聯網,進行更優化更智慧地控制各種物聯網前端裝置,而這個過程中的資料、指令互動和應用部署也是一種典型的雲-端互聯架構。

大資料智慧為什麼離不開物聯網和雲端計算,主要基於如下兩點:(1)物聯網是大資料的採集端和智慧服務的釋出端,是智慧服務於人和機器的重要載體,就像現在的智慧手機和機器人,同時,物聯網也是網際網路、傳統電信網等資訊承載體,讓所有能行使獨立功能的普通物體能實現互聯互通的網路。當前人工智慧領域深度學習這一關鍵技術的突破,得益於大資料驅動,而大資料得益於可穿戴物聯網裝置和智慧手機等的應用普及,使得大資料採集的範圍、廣度和深度進一步加強,這為提供更為精準的大資料智慧預測提供了資料保障;(2)雲端計算是大資料智慧處理分析的基礎支撐平臺,提供強大的儲存能力和密集計算力,來支援海量資料資源的動態管理和智慧模型的高效能學習。其技術實現是基於網際網路進行相關服務的推送、使用和交付,通常涉及通過網際網路來提供動態易擴充套件且經常是虛擬化的資源。通過這種方式,雲中共享的軟硬體資源和資訊可以按需提供給計算機各種物聯網終端和裝置。智慧時代的基礎IT和DT架構一定是基於上述四種關鍵技術領域的整合。也就在昨天,微軟宣佈肢解原來最重要的Windows部門,而組建兩個新的大部:一個是體驗和裝置部;一個是雲端計算和人工智慧平臺部。可以看出,微軟的東方不敗自宮式重組,就是打算四位一體練就大資料智慧神功,希望能在DT時代繼續保持霸主地位。

   3大資料智慧:一種新的認知正規化

筆者在前文曾提到,大資料智慧的成功普及將是傳統資訊化的終點,換句話說,資訊化走向智慧化之後,整個資訊科技相關的產業鏈(包括傳統產業的升級)都會產生質的變化。大資料智慧應用的終極目標是利用一系列智慧演算法和資訊處理技術實現海量資料條件下的人類深度洞察和決策智慧化,最終走向普適的人機智慧融合!這不僅是傳統資訊化管理的擴充套件延伸,也是人類社會發展管理智慧化的核心技術驅動力。大資料智慧代表了一種新的認知正規化,圖靈獎得主,關聯式資料庫的鼻祖Jim Gray將人類科學的發展定義成為四個“正規化”,並描繪了自己關於第四正規化的願景:幾千年前的科學,以記錄和描述自然現象為主,稱為“實驗科學”,即第一正規化,其典型案例如鑽木取火;數百年前,科學家們開始利用模型歸納總結過去記錄的現象,發展出“理論科學”,即第二正規化,其典型案例如牛頓三定律、麥克斯韋方程組、相對論等;過去數十年,科學計算機的出現,誕生了“計算科學”,對複雜現象進行模擬模擬,推演出越來越多複雜的現象,其典型案例如模擬核試驗、天氣預報等;Jim Gray認為今天,以及未來科學的發展趨勢是,隨著資料量的高速增長,計算機將不僅僅能做模擬模擬,還能進行分析總結,得到理論。也就是說,過去由牛頓、愛因斯坦等科學家從事的工作,未來可以由計算機來做。Jim Gray將這種科學研究的方式,成為第四正規化,即資料密集型科學。

圖3 大資料智慧應用,自問四個關鍵問題

    大資料智慧就類似Jim Gray提出的“第四正規化”,我們如何看待周遭的世界,沒有大資料時是靠歸納總結和實驗模擬,當然經驗和直覺也很重要,而大資料的興起,前面三種正規化的做法必然面臨挑戰,推理、經驗和直覺等能力在龐雜大資料面前會大打折扣。就像我們的科學發展史一樣,大資料智慧的普及將是對傳統認知方法的顛覆,人類的科學發展是一部理性戰勝感性的歷史,望遠鏡改變了我們對宇宙的看法;顯微鏡改變了我們對微觀世界的認知;而當前通過大資料智慧技術來解釋我們親手構建的數字世界,也意味著我們即將跨入一種新的認知正規化時代,所謂科學的第四正規化,只是其中一方面罷了。真正的大資料智慧,既能像望遠鏡一樣巨集觀,也能像顯微鏡一樣微觀,可以讓我們通過對多維數字空間的自動投影、變換、關聯等來更好地理解和掌控周遭的數字世界。當然這個過程也伴隨著風險,大資料環境下的數權意味著更重大的責任,如何重構權責關係?智慧更是意味著機器的覺醒,如何控制負面影響?值得我們深思…