淺談人工智慧:現狀、任務、構架與統一 | 正本清源(看完有新認知)

淺談人工智慧:現狀、任務、構架與統一 | 正本清源(看完有新認知)

https://mp.weixin.qq.com/s/-wSYLu-XvOrsST8_KEUa-Q

淺談人工智慧:現狀、任務、構架與統一 | 正本清源

原創 2017-11-02 朱鬆純 視覺求索 
朱鬆純 加州大學洛杉磯分校UCLA、統計學和電腦科學教授、視覺、認知、學習與自主機器人中心主任 
[email protected]、2017年11月02日 刊登於 《視覺求索》微信公眾號

目錄

引言

第一節 現狀:正視現實 
第二節 未來:一隻烏鴉給我們的啟示 
第三節 歷史:從“春秋五霸”到“戰國六雄” 
第四節 統一:“小資料、大任務”正規化與認知構架 
第五節 學科一:計算視覺 — 從“深”到“暗” 
第六節 學科二:認知推理 — 走進內心世界 
第七節 學科三:語言通訊 — 溝通的認知基礎 
第八節 學科四:博弈倫理 — 獲取、共享人類的價值觀 
第九節 學科五:機器人學 — 構建大任務平臺 
第十節 學科六:機器學習 — 學習的終極極限與“停機問題” 
第十一節 總結: 智慧科學 — 牛頓與達爾文的統一

附錄 中科院自動化所報告會上的問答與互動摘錄 
鳴謝

引言

“人工智慧”這個名詞在沉寂了近30年之後,最近兩年“鹹魚翻身”,成為了科技公司公關的戰場、網路媒體吸睛的風口,隨後受到政府的重視和投資界的追捧。於是,新聞釋出會、高峰論壇接踵而來,政府戰略規劃出臺,各種新聞應接不暇,宣告一個“智慧為王”時代的到來。到底什麼是人工智慧?現在的研究處於什麼階段?今後如何發展?這是大家普遍關注的問題。由於人工智慧涵蓋的學科和技術面非常廣,要在短時間內全面認識、理解人工智慧,別說非專業人士,就算對本行業研究人員,也是十分困難的任務。所以,現在很多宣傳與決策衝到認識之前了,由此不可避免地造成一些思想和輿論的混亂。

自從去年用了微信以來,我就常常收到親朋好友轉來的驚世駭俗的新聞標題。我發現很多議論缺乏科學依據,變成了“娛樂AI”。一個在1970年代研究黑洞的物理學博士,從來沒有研究過人工智慧,卻時不時被擡出來預測人類末日的到來。某些公司的公關部門和媒體發揮想象力,動輒把一些無辜的研究人員封為“大師”、“泰斗”。最近,名詞不夠用了。九月初,就有報道把請來的一位美國教授稱作“人工智慧祖師爺”。這位教授的確是機器學習領域的一個領軍人物,但人工智慧是1956年開始的,這位教授也才剛剛出生。況且機器學習只是人工智慧的一個領域而已,大部分其它重要領域,如視覺、語言、機器人,他都沒有涉足,所以這樣的封號很荒唐(申明一點:我對這位學者本人沒有意見,估計他自己不一定知道這個封號)。當時我想,後面是不是有人會搬出“達摩老祖、佛祖如來、孔雀王、太上老君、玉皇大帝”這樣的封號。十月初,赫然就聽說達摩院成立了,宣稱要碾壓美國,輿情轟動!別說一般老百姓擔心丟飯碗,就連一些業內的研究人員都被說得心慌了,來問我有什麼看法。

我的看法很簡單:大多數寫報道和搞炒作宣傳的人,基本不懂人工智慧。這就像年輕人玩的傳話遊戲,扭曲的資訊在多次傳導過程中,逐級放大,最後傳回來,自己嚇到自己了。下面這個例子就說明公眾的誤解到了什麼程度。今年9月我在車上聽到一家電臺討論人工智慧。兩位主持人談到矽谷臉書公司,有個程式設計師突然發現,兩臺電腦在通訊過程中發明了一種全新的語言,快速交流,人看不懂。眼看一種“超級智慧”在幾秒之內迅速迭代升級(我加一句:這似乎就像宇宙大爆炸的前幾秒鐘),程式設計師驚恐萬狀。人類現在只剩最後一招才能拯救自己了:“別愣著,趕緊拔電源啊!…”終於把人類從鬼門關又拉回來了。

回到本文的正題。全面認識人工智慧之所以困難,是有客觀原因的。

其一、人工智慧是一個非常廣泛的領域。當前人工智慧涵蓋很多大的學科,我把它們歸納為六個: 
(1)計算機視覺(暫且把模式識別,影象處理等問題歸入其中)、 
(2)自然語言理解與交流(暫且把語音識別、合成歸入其中,包括對話)、 
(3)認知與推理(包含各種物理和社會常識)、 
(4)機器人學(機械、控制、設計、運動規劃、任務規劃等)、 
(5)博弈與倫理(多代理人agents的互動、對抗與合作,機器人與社會融合等議題)。 
(6)機器學習(各種統計的建模、分析工具和計算的方法),

這些領域目前還比較散,目前它們正在交叉發展,走向統一的過程中。我把它們通俗稱作“戰國六雄”,中國歷史本來是“戰國七雄”,我這裡為了省事,把兩個小一點的領域:博弈與倫理合並了,倫理本身就是博弈的種種平衡態。最終目標是希望形成一個完整的科學體系,從目前鬧哄哄的工程實踐變成一門真正的科學Science of Intelligence。

由於學科比較分散,從事相關研究的大多數博士、教授等專業人員,往往也只是涉及以上某個學科,甚至長期專注於某個學科中的具體問題。比如,人臉識別是計算機視覺這個學科裡面的一個很小的問題;深度學習屬於機器學習這個學科的一個當紅的流派。很多人現在把深度學習就等同於人工智慧,就相當於把一個地級市說成全國,肯定不合適。讀到這裡,搞深度學習的同學一定不服氣,或者很生氣。你先別急,等讀完後面的內容,你就會發現,不管CNN網路有多少層,還是很淺,涉及的任務還是很小。各個領域的研究人員看人工智慧,如果按照印度人的諺語可以叫做“盲人摸象”,但這顯然是言語冒犯了,還是中國的文豪蘇軾遊廬山時說得有水準: 

“橫看成嶺側成峰,遠近高低各不同。 
  不識廬山真面目,只緣身在此山中。

其二,人工智慧發展的斷代現象。由於歷史發展的原因,人工智慧自1980年代以來,被分化出以上幾大學科,相互獨立發展,而且這些學科基本拋棄了之前30年以邏輯推理與啟發式搜尋為主的研究方法,取而代之的是概率統計(建模、學習)的方法。留在傳統人工智慧領域(邏輯推理、搜尋博弈、專家系統等)而沒有分流到以上分支學科的老一輩中,的確是有很多全域性視野的,但多數已經過世或退休了。他們之中只有極少數人在80-90年代,以敏銳的眼光,過渡或者引領了概率統計與學習的方法,成為了學術領軍人物。而新生代(80年代以後)留在傳統人工智慧學科的研究人員很少,他們又不是很瞭解那些被分化出去的學科中的具體問題。這種領域的分化與歷史的斷代,
客觀上造成了目前的學界和產業界思路和觀點相當“混亂”的局面,媒體上的混亂就更放大了。但是,以積極的態度來看,這個局面確實為現在的年輕一代研究人員、研究生提供了一個很好的建功立業的機會和廣闊的舞臺。鑑於這些現象,《視覺求索》編輯部同仁和同行多次催促我寫一篇人工智慧的評論和介紹材料。我就免為其難,僅以自己30年來讀書和跨學科研究的經歷、觀察和思辨,淺談什麼是人工智慧;它的研究現狀、任務與構架;以及如何走向統一。

我寫這篇文章的動機在於三點: 
(1)為在讀的研究生們、為有志進入人工智慧研究領域的年輕學者開闊視野。 
(2)為那些對人工智慧感興趣、喜歡思考的人們,做一個前沿的、綜述性的介紹。 
(3)為公眾與媒體從業人員,做一個人工智慧科普,澄清一些事實。

本文來歷: 本文技術內容選自我2014年來在多所大學和研究所做的講座報告。2017年7月,微軟的沈向洋博士要求我在一個朋友聚會上做一個人工智慧的簡介,我增加了一些通俗的內容。2017年9月,在譚鐵牛和王蘊紅老師的要求下,我參加了中科院自動化所舉辦的人工智慧人機互動講習班,他們派速記員和一名博士生整理出本文初稿。如果沒有他們的熱情幫助,這篇文章是不可能寫成的。原講座兩個半小時,本文做了刪減和文字修飾。仍然有四萬字,加上大量插圖和示例。很抱歉,無法再壓縮了。

本文摘要:文章前四節淺顯探討什麼是人工智慧和當前所處的歷史時期,後面六節分別探討六個學科的重點研究問題和難點,有什麼樣的前沿的課題等待年輕人去探索,最後一節討論人工智慧是否以及如何成為一門成熟的科學體系,誠如屈子所言:“路漫漫其修遠兮,吾將上下而求索”。

第一節 現狀評估:正視現實

人工智慧的研究,簡單來說,就是要通過智慧的機器,延伸和增強(augment)人類在改造自然、治理社會的各項任務中的能力和效率,最終實現一個人與機器和諧共生共存的社會。這裡說的智慧機器,可以是一個虛擬的或者物理的機器人。與人類幾千年來創造出來的各種工具和機器不同的是,智慧機器有自主的感知、認知、決策、學習、執行和社會協作能力,符合人類情感、倫理與道德觀念。拋開科幻的空想,談幾個近期具體的應用。無人駕駛大家聽了很多,先說說軍用。軍隊裡的一個班或者行動組,現在比如要七個人,將來可以減到五個人,另外兩個用機器來替換。其次,機器人可以用在救災和一些危險的場景,如核洩露現場,人不能進去,必須靠機器人。醫用的例子很多:智慧的假肢或外骨架(exoskeleton)與人腦和身體訊號對接,增強人的行動控制能力,幫助殘疾人更好生活。此外,還有就是家庭養老等服務機器人等。 

但是,這方面的進展很不盡人意。以前日本常常炫耀他們機器人能跳舞,中國有一次春節晚會也拿來表演了。那都是事先編寫的程式,結果一個福島核輻射事故一下子把所有問題都暴露了,發現他們的機器人一點招都沒有。美國也派了機器人過去,同樣出了很多問題。比如一個簡單的技術問題,機器人進到災難現場,背後拖一根長長的電纜,要供電和傳資料,結果電纜就被纏住了,動彈不得。有一次,一位同事在餐桌上半開玩笑說,以現在的技術,要讓一個機器人長時間像人一樣處理問題,可能要自帶兩個微型的核電站,一個發電驅動機械和計算裝置,另一個發電驅動冷卻系統。順便說一個,人腦的功耗大約是10-25瓦。

看到這裡,有人要問了,教授說得不對,我們明明在網上看到美國機器人讓人歎為觀止的表現。比如,這一家波士頓動力學公司(Boston Dynamics)的演示,它們的機器人,怎麼踢都踢不倒呢,或者踢倒了可以自己爬起來,而且在野外叢林箭步如飛呢,還有幾個負重的電驢、大狗也很酷。這家公司本來是由美國國防部支援開發出機器人來的,被谷歌收購之後、就不再承接國防專案。可是,谷歌發現除了燒錢,目前還找不到商業出路,最近一直待售之中。您會問,那谷歌不是很牛嗎?DeepMind下圍棋不是也一次次刺激中國人的神經嗎?有一個逆天的機器人身體、一個逆天的機器人大腦,它們都在同一個公司內部,那為什麼沒有做出一個人工智慧的產品呢?他們何嘗不在夜以繼日的奮戰之中啊。

人工智慧炒作了這麼長時間,您看看周圍環境,您看到機器人走到大街上了?沒有。您看到人工智慧進入家庭了嗎?其實還沒有。您可能唯一直接領教過的是基於大資料和深度學習訓練出來的聊天機器人,你可能跟Ta聊過。用我老家湖北人的話,這就叫做“扯白”— 東扯西拉、說白話。如果你沒有被Ta氣得背過氣的話,要麼您真的是閒得慌,要麼是您真的有耐性。 

為了測試技術現狀,美國國防部高階研究署2015年在洛杉磯郊區Pomona做了一個DARPA Robot Challenge(DRC),懸賞了兩百萬美金獎給競賽的第一名。有很多隊伍參加了這個競賽,上圖是韓國科技大學隊贏了第一名,右邊是他們的機器人在現場開門進去“救災”。整個比賽場景設定的跟好萊塢片場一樣,複製了三個賽場,全是冒煙的救災場面。機器人自己開著一個車子過來,自己下車,開門,去拿工具,關閥門,在牆上開洞,最後過一個磚頭做的障礙區,上樓梯等一系列動作。我當時帶著學生在現場看,因為我們剛好有一個大的DARPA專案,專案主管是裡面的裁判員。當時,我第一感覺還是很震撼的,感覺不錯。後來發現內情,原來機器人所有的動作基本上是人在遙控的。每一步、每一個場景分別有一個介面,每個學生控制一個模組。感知、認知、動作都是人在指揮。就是說這個機器人其實並沒有自己的感知、認知、思維推理、規劃的能力。造成的結果是,你就可以看到一些不可思議的事情。比如說這個機器人去抓門把手的時候,因為它靠後臺人的感知,誤差一釐米,就沒抓著;或者腳踩樓梯的時候差了一點點,它重心就失去了平衡,可是在後面控制的學生沒有重力感知訊號,一看失去平衡,他來不及反應了。你想想看,我們人踩滑了一下子能保持平衡,因為你整個人都在一起反應,可是那個學生只是遠遠地看著,他反應不過來,所以機器人就東倒西歪。

這還是一個簡單的場景。其一、整個場景都是事先設定的,各個團隊也都反覆操練過的。如果是沒有遇見的場景,需要靈機決斷呢?其二、整個場景還沒有人出現,如果有其他人出現,需要社會活動(如語言交流、分工協作)的話,那複雜度就又要上兩個數量級了。 

其實,要是完全由人手動控制,現在的機器人都可以做手術了,而且手術機器人已經在普及之中。上圖是我實驗室與一家公司合作的專案,機器人可以開拉鍊、檢查包裹、用鉗子撤除炸彈等,都是可以實現的。現在的機器人,機械控制這一塊已經很不錯了,但這也不是完全管用。比如上面提到的波士頓動力學公司的機器人電驢走山路很穩定,但是它馬達噪音大,轟隆隆的噪音,到戰場上去把目標都給暴露了。特別是晚上執勤、偵察,你搞那麼大動靜,怎麼行呢?

2015年的這次DRC競賽,暫時就斷送了美國機器人研究的重大專案的立項。外行(包含國會議員)從表面看,以為這個問題已經解決了,應該留給公司去開發;內行看到裡面的困難,覺得一時半會沒有大量經費解決不了。這個認識上的落差在某種程度上就是“科研的冬天”到來的前題條件。

小結一下,現在的人工智慧和機器人,關鍵問題是缺乏物理的常識和社會的常識“Common sense”。 這是人工智慧研究最大的障礙。那麼什麼是常識?常識就是我們在這個世界和社會生存的最基本的知識:(1)它使用頻率最高;(2)它可以舉一反三,推匯出並且幫助獲取其它知識。這是解決人工智慧研究的一個核心課題。我自2010年來,一直在帶領一個跨學科團隊,攻關視覺常識的獲取與推理問題。我在自動化所做了另外一個關於視覺常識報告,也被轉錄成中文了,不久會發表出來。那麼是不是說,我們離真正的人工智慧還很遙遠呢?其實也不然。關鍵是研究的思路要找對問題和方向。自然界已經為我們提供了很好的案例。下面,我就來看一下,自然界給我們展示的解答。

第二節 未來目標: 一隻烏鴉給我們的啟示

同屬自然界的鳥類,我們對比一下體型大小都差不多的烏鴉和鸚鵡。鸚鵡有很強的語言模仿能力,你說一個短句,多說幾遍,它能重複,這就類似於當前的由資料驅動的聊天機器人。二者都可以說話,但鸚鵡和聊天機器人都不明白說話的語境和語義,也就是它們不能把說的話對應到物理世界和社會的物體、場景、人物,不符合因果與邏輯。可是,烏鴉就遠比鸚鵡聰明,它們能夠製造工具,懂得各種物理的常識和人的活動的社會常識。下面,我就介紹一隻烏鴉,它生活在複雜的城市環境中,與人類互動和共存。YouTube網上有不少這方面的視訊,大家可以找來看看。我個人認為,人工智慧研究該搞一個“烏鴉圖騰”,
因為我們必須認真向它們學習。

上圖a是一隻烏鴉,被研究人員在日本發現和跟蹤拍攝的。烏鴉是野生的,也就是說,沒人管,沒人教。它必須靠自己的觀察、感知、認知、學習、推理、執行,完全自主生活。假如把它看成機器人的話,它就在我們現實生活中活下來。如果這是一個自主的流浪漢進城了,他要在城裡活下去,包括與城管周旋。

首先,烏鴉面臨一個任務,就是尋找食物。它找到了堅果(至於如何發現堅果裡面有果肉,那是另外一個例子了),需要砸碎,可是這個任務超出它的物理動作的能力。其它動物,如大猩猩會使用工具,找幾塊石頭,一塊大的墊在底下,一塊中等的拿在手上來砸。烏鴉怎麼試都不行,它把堅果從天上往下拋,發現解決不了這個任務。在這個過程中,它就發現一個訣竅,把果子放到路上讓車軋過去(圖b),這就是“鳥機互動”了。後來進一步發現,雖然堅果被軋碎了,但它到路中間去吃是一件很危險的事。因為在一個車水馬龍的路面上,隨時它就犧牲了。我這裡要強調一點,這個過程是沒有大資料訓練的,也沒有所謂監督學習,烏鴉的生命沒有第二次機會。這是與當前很多機器學習,特別是深度學習完全不同的機制。

然後,它又開始觀察了,見圖c。它發現在靠近紅綠路燈的路口,車子和人有時候停下了。這時,它必須進一步領悟出紅綠燈、斑馬線、行人指示燈、車子停、人流停這之間複雜的因果鏈。甚至,哪個燈在哪個方向管用、對什麼物件管用。搞清楚之後,烏鴉就選擇了一根正好在斑馬線上方的一根電線,蹲下來了(圖d)。這裡我要強調另一點,也許它觀察和學習的是別的地點,那個點沒有這些蹲點的條件。它必須相信,同樣的因果關係,可以搬到當前的地點來用。這一點,當前很多機器學習方法是做不到的。比如,一些增強學習方法,讓機器人抓取一些固定物體,如積木玩具,換一換位置都不行;打遊戲的人工智慧演算法,換一換畫面,又得重新開始學習。它把堅果拋到斑馬線上,等車子軋過去,然後等到行人燈亮了(圖e)。這個時候,車子都停在斑馬線外面,它終於可以從容不迫地走過去,吃到了地上的果肉。你說這個烏鴉有多聰明,這是我期望的真正的智慧。這個烏鴉給我們的啟示,至少有三點:

其一、它是一個完全自主的智慧。感知、認知、推理、學習、和執行, 它都有。我們前面說的, 世界上一批頂級的科學家都解決不了的問題,烏鴉向我們證明了,這個解存在。

其二、你說它有大資料學習嗎?這個烏鴉有幾百萬人工標註好的訓練資料給它學習嗎?沒有,它自己把這個事通過少量資料想清楚了,沒人教它。

其三、烏鴉頭有多大?不到人腦的1%大小。 人腦功耗大約是10-25瓦,它就只有0.1-0.2瓦,就實現功能了,根本不需要前面談到的核動力發電。 這給硬體晶片設計者也提出了挑戰和思路。十幾年前我到中科院計算所講座, 就說要做視覺晶片VPU,應該比後來的GPU更超前。我最近參與了一個計算機體系結構的大專案,也有這個目標。在座的年輕人想想看,你們有很大的機會在這裡面,這個解存在,但是我們不知道怎麼用一個科學的手段去實現這個解。講通俗一點,我們要尋找“烏鴉”模式的智慧,而不要“鸚鵡”模式的智慧。當然,我們必須也要看到,“鸚鵡”模式的智慧在商業上,針對某些垂直應用或許有效。我這裡不是說要把所有智慧問題都解決了,才能做商業應用。單項技術如果成熟落地,也可以有巨大商業價值。我這裡談的是科學研究的目標。

第三節 歷史時期:從“春秋五霸”到“戰國六雄”

要搞清楚人工智慧的發展趨勢,首先得回顧歷史。讀不懂歷史,無法預測未來。這一節,我就結合自己的經歷談一下我的觀點,不見得準確和全面。為了讓非專業人士便於理解,我把人工智慧的60年曆史與中國歷史的一個時期做一個類比,但絕對不要做更多的推廣和延伸。如下圖所示,這個的時期是以美國時間為準的,中國一般會滯後一兩年。

首先,從表面一層來看。反映在一些產業新聞和社會新聞層面上,人工智慧經過了幾起幾落,英文叫做Boom and Bust,意思是一哄而上、一鬨而散,很形象。每次興盛期都有不同的技術在裡面起作用。最早一次的興起是1956-1974,以命題邏輯、謂詞邏輯等知識表達、啟發式搜尋演算法為代表。當時就已經開始研究下棋了。然後進入第一次冬天。這個時候,中國結束文革,開始學習西方科技。我上小學的時候,就聽到報紙報道計算機與人下國際象棋,十分好奇。1980年代初又興起了第二次熱潮,一批吹牛的教授、研究人員登場了。做專家系統、知識工程、醫療診斷等,中國當時也有人想做中醫等系統。雖然這次其中也有學者拿了圖靈獎,但這些研究沒有很好的理論根基。1986年我上了中國科大計算機系,我對計算機專業本身不是最感興趣,覺得那就是一個工具和技能,而人工智慧方向水很深,值得長期探索,所以我很早就去選修了人工智慧的研究生課程,是由自動化系一個到美國進修的老師回來開的課。上完課,我很失望,感覺撲空了。它基本還是以符號為主的推理,離現實世界很遠。當時人工智慧裡面的人員也很悲觀,沒士氣。所以,我就去閱讀關於人的智慧的相關領域:神經生理學、心理學、認知科學等,這就讓我摸到了計算機視覺這個新興的學科。在80年代末有個短暫的神經網路的研究熱潮,我們當時本科五年制,我的大學畢業論文就是做神經網路的。隨後,人工智慧就跌入了近30年的寒冬。

第三次熱潮就是最近兩年興起的深度學習推動的。有了以前的教訓,一開始學者們都很謹慎,出來警告說我們做的是特定任務,不是通用人工智慧,大家不要炒作。但是,攔不住了。公司要做宣傳,然後,大家開始加碼宣傳。這就像踩踏事件,處在前面的人是清醒的,他們叫停,可是後面大量聞信趕來的人不知情,拼命往裡面擠。人工智慧的確是太重要了,誰都不想誤了這趟車。也有人認為這次是真的,不會再有冬天了。冬天不冬天,那就要看我們現在怎麼做了。所以說,從我讀大學開始,人工智慧這個名詞從公眾視線就消失了近30年。我現在回頭看,其實它當時並沒有消失,而是分化了。研究人員分別聚集到五個大的領域或者叫做學科:計算機視覺、自然語言理解、認知科學、機器學習、機器人學。這些領域形成了自己的學術圈子、國際會議、國際期刊,各搞各的,獨立發展。人工智慧裡面還有一些做博弈下棋、常識推理,還留在裡面繼續搞,但人數不多。我把這30年叫做一個“分治時期”,相當於中國歷史的“春秋時期”。春秋五霸就相當於這分出去的五個學科,大家各自發展壯大。

其次、從深一層的理論基礎看。我把人工智慧發展的60年分為兩個階段。

第一階段:前30年以數理邏輯的表達與推理為主。這裡面有一些傑出的代表人物,如John McCarthy、Marvin Minsky、Herbert Simmon。他們懂很多認知科學的東西,有很強的全域性觀念。這些都是我讀大學的時候仰慕的人物,他們拿過圖靈獎和其它一堆大獎。但是,他們的工具基本都是基於數理邏輯和推理。這一套邏輯的東西發展得很乾淨、漂亮,很值得我們學習。大家有興趣,可以參考一本最新工具書:The Handbook of Knowledge Representation,2007年編寫的,1000多頁。但是,這些符號的知識表達不落地,全書談的沒有實際的圖片和系統;所以,一本1000多頁的書,PDF檔案只有10M,下載非常快。而我現在給的這個講座,PPT差不多1G,
因為有大量的圖片、視訊,是真實的例子。這個邏輯表達的“體制”,就相當於中國的周朝,周文王建立了一個相對鬆散的諸侯部落體制,後來指揮不靈,就瓦解了,進入一個春秋五霸時期。而人工智慧正好也分出了五大領域。

第二階段:後30年以概率統計的建模、學習和計算為主。在10餘年的發展之後,“春秋五霸”在1990年中期都開始找到了概率統計這個新“體制”:統計建模、機器學習、隨機計算演算法等。在這個體制的轉型過程中,起到核心作用的有這麼幾個人。講得通俗一點,他們屬於先知先覺者,提前看到了人工智慧的發展趨勢,押對了方向(就相當於80年代買了微軟、英特爾股票;90年代末,押對了中國房地產的那一批人)。他們沒有進入中國媒體的宣傳視野。我簡要介紹一下,從中我們也可以學習到一些治學之道。

第一個人叫Ulf Grenander。他從60年代就開始做隨機過程和概率模型,是最早的先驅。60年代屬於百家爭鳴的時期,當別的領軍人物都在談邏輯、神經網路的時候,他開始做概率模型和計算,建立了廣義模式理論,試圖給自然界各種模式建立一套統一的數理模型。我在以前談計算機視覺歷史的博文裡寫過他,他剛剛去世。美國數學學會AMS剛剛以他名字設立了一個獎項(Grenander Prize)獎給對統計模型和計算領域有貢獻的學者。他絕對是學術思想的先驅人物。

第二個人是Judea Pearl。他是我在UCLA的同事,原來是做啟發式搜尋演算法的。80年代提出貝葉斯網路把概率知識表達於認知推理,並估計推理的不確定性。到90年代末,他進一步研究因果推理,這又一次領先於時代。2011年因為這些貢獻他拿了圖靈獎。他是一個知識淵博、思維活躍的人,不斷有原創思想。80多歲了,還在高產發表論文。順便吹牛一句,他是第一個在UCLA計算機系和統計系兼職的教授,我是多年之後第二個這樣兼職的。其實搞這種跨學科研究當時思想超前,找工作或者評議的時候,兩邊的同行都不待見,不認可。

第三個人是Leslei Valiant。他因離散數學、計算機演算法、分散式體系結構方面的大量貢獻,2010年拿了圖靈獎。1984年,他發表了一篇文章,開創了computational learning theory。他問了兩個很簡單、但是深刻的問題。第一個問題:你到底要多少例子、資料才能近似地、以某種置信度學到某個概念,就是PAClearning;第二個問題:如果兩個弱分類器綜合在一起,能否提高效能?如果能,那麼不斷加弱分類器,就可以收斂到強分類器。這個就是Boosting和Adaboost的來源,後來被他的一個博士後設計了演算法。順便講一句,這個機器學習的原理,其實中國人早就在生活中觀察到了,就是俗話說的“三個臭裨將、頂個諸葛亮”。這裡的裨將就是副官,打仗的時候湊在一起商量對策,被民間以訛傳訛,說成“皮匠”。Valiant為人非常低調。我1992年去哈佛讀書的時候,第一學期就上他的課,當時聽不懂他說話,他上課基本是自言自語。他把自己科研的問題直接佈置作業讓我們去做,到哪裡都找不到參考答案,也沒有任何人可以問。苦啊,100分的課我考了40多分。上課的人從四十多人,到了期中只有十來個人,我開始擔心是不是要掛科了。最後,還是堅持到期末。他把成績貼在他辦公室門上,當我懷著忐忑不安心情去看分的時候,發現他給每個人都是A。

第四個人是David Mumford。我把他放在這裡,有點私心,因為他是我博士導師。他說他60年代初本來對人工智慧感興趣。因為他數學能力特別強,上代數幾何課程的時候就發現能夠證明大定理了,結果一路不可收拾,拿了菲爾茨獎。但是,到了80年代中期,他不忘初心,還是決定轉回到人工智慧方向來,從計算機視覺和計算神經科學入手。我聽說他把原來代數幾何的書全部拿下書架放在走廊,讓人拿走,再也不看了。數學家來訪問,他也不接待了。計算機視覺80年代至90年代初,一個最大的流派就是做幾何和不變數,他是這方面的行家,但他根本不過問這個方向。他就從頭開始學概率,那個時候他搞不懂的問題就帶我去敲樓上統計系教授的門,比如去問哈佛一個有名的概率學家Persy
Diaconis。他完全是一個學者,放下架子去學習新東西,直奔關鍵的體系,而不是拿著手上用慣了的錘子到處找釘子 — 這是我最佩服的地方。然後,他皈依了廣義模式理論。他的貢獻,我就避嫌不說了。

這個時期,還有一個重要的人物是做神經網路和深度學習的多倫多大學教授Hinton。我上大學的時候,80年代後期那一次神經網路熱潮,他就出名了。他很有思想,也很堅持,是個學者型的人物。所不同的是,他下面的團隊有點像搖滾歌手,能憑著一首通俗歌曲(程式碼),迅速紅遍大江南北。這裡順便說一下,我跟Hinton只見過一面。他腰椎疾病使得他不能到處作報告,前幾年來UCLA做講座(那時候深度學習剛剛開始起來),我們安排了一個面談。一見面,他就說“我們總算見面了”,因為他讀過我早期做的統計紋理模型和隨機演算法的一些論文,他們學派的一些模型和演算法與我們做的工作在數理層面有很多本質的聯絡。我列印了一篇綜述文章給他帶在坐火車回去的路上看。這是一篇關於隱式(馬爾科夫場)與顯式(稀疏)模型的統一與過渡的資訊尺度的論文,他回Toronto後就發來郵件,說很高興讀到這篇論文。很有意思的是,這篇論文的初稿,我和學生匿名投到CVPR會議,三個評分是“(5)強烈拒絕;(5)強烈拒絕;(4)拒絕”。評論都很短:“這篇文章不知所云,很怪異weird”。我們覺得文章死定了,就懶得反駁
(rebuttal),結果出乎意外地被錄取了。當然,發表了也沒人讀懂。所以,我就寫成一篇長的綜述,算是暫時擱置了。我把這篇論文給他看,Hinton畢竟是行家,他一定也想過類似的問題。最近,我們又回去做這個問題,我在今年的ICIP大會特邀報告上還提到這個問題,後面也會作為一個《視覺求索》文章釋出出來。這是一個十分關鍵的問題,就是兩大類概率統計模型如何統一起來(就像物理學,希望統一某兩個力和場),這是繞不過去的。

扯遠了,回到人工智慧的歷史時期,我作了一個比較通俗的說法,讓大家好記住,相當於咱們中國早期的歷史。早期數理邏輯的體制相當於周朝,到80年代這個體制瓦解了,人工智慧大概有二三十年不存在了,說起人工智慧大家都覺得不著調,汙名化了。其實,它進入一個春秋五霸時期,計算機視覺、自然語言理解、認知科學、機器學習、機器人學五大學科獨立發展。在發展壯大的過程中,這些學科都發現了一個新的平臺或者模式,就是概率建模和隨機計算。春秋時期雖然有一些征戰,但還是相對平靜的時期。那麼現在開始進入一個什麼狀態呢?這“春秋五霸”不斷擴充地盤和人馬,在一個共同平臺上開始互動了。比如說視覺跟機器學習很早就開始融合了。現在視覺與自然語言、視覺跟認知、視覺跟機器人開始融合了。近年來,我和合作者就多次組織這樣的聯席研討會。現在,學科之間則開始兼併了,就像是中國歷史上的“戰國七雄”時期。除了五霸,還有原來留在人工智慧裡面的兩個大方向:博弈決策和倫理道德。這兩者其實很接近,我後面把它們歸併到一起來講,一共六大領域,我把它歸納為“戰國六雄”。所以,我跟那些計算機視覺的研究生和年輕人說,你們不要單純在視覺這裡做,你趕緊出去“搶地盤”,單獨做視覺,已經沒有多少新東西可做的了,效能調不過公司的人是一方面;更麻煩的是,別的領域的人打進來,把你的地盤給佔了。這是必然發生的事情,現在正在發生的事情。我的判斷是,我們剛剛進入一個“戰國時期”,以後就要把這些領域統一起來。首先我們必須深入理解計算機視覺、自然語言、機器人等領域,這裡面有很豐富的內容和語意。如果您不懂這些問題domain的內涵,僅僅是做機器學習就稱作人工智慧專家,恐怕說不過去。我們正在進入這麼一個大整合的、大變革的時代,有很多機會讓我們去探索前沿,不要辜負了這個時代。這是我演講的第一個部分:人工智慧的歷史、現狀,發展的大趨勢。下面,進入我今天演講的第二個主題:用一個什麼樣的構架把這些領域和問題統一起來。我不敢說我有答案,只是給大家提出一些問題、例子和思路,供大家思考。不要指望我給你提供程式碼,下載回去,調調引數就能發文章。

第四節 人工智慧研究的認知構架:小資料、大任務正規化

智慧是一種現象,表現在個體和社會群體的行為過程中。回到前面烏鴉的例子,我認為智慧系統的根源可以追溯到兩個基本前提條件:

一、物理環境客觀的現實與因果鏈條。這是外部物理環境給烏鴉提供的、生活的邊界條件。在不同的環境條件下,智慧的形式會是不一樣的。任何智慧的機器必須理解物理世界及其因果鏈條,適應這個世界。

二、智慧物種與生俱來的任務與價值鏈條。這個任務是一個生物進化的“剛需”。如個體的生存,要解決吃飯和安全問題,而物種的傳承需要交配和社會活動。這些基本任務會衍生出大量的其它的“任務”。動物的行為都是被各種任務驅動的。任務代表了價值觀和決策函式,這些價值函式很多在進化過程中就已經形成了,包括人腦中發現的各種化學成分的獎懲調製,如多巴胺(快樂)、血清素(痛苦)、乙醯膽鹼(焦慮、不確定性)、去甲腎上腺素(新奇、興奮)等。有了物理環境的因果鏈和智慧物種的任務與價值鏈,那麼一切都是可以推匯出來的。要構造一個智慧系統,如機器人或者遊戲環境中的虛擬的人物,我們先給他們定義好身體的基本行動的功能,再定一個模型的空間(包括價值函式)。其實,生物的基因也就給了每個智慧的個體這兩點。然後,它就降臨在某個環境和社會群體之中,就應該自主地生存,就像烏鴉那樣找到一條活路:認識世界、利用世界、改造世界。這裡說的模型的空間是一個數學的概念,我們人腦時刻都在改變之中,也就是一個抽象的點,在這個空間中移動。模型的空間通過價值函式、決策函式、感知、認知、任務計劃等來表達。通俗來說,一個腦模型就是世界觀、人生觀、價值觀的一個數學的表達。這個空間的複雜度決定了個體的智商和成就。我後面會講到,這個模型的表達方式和包含哪些基本要素。有了這個先天的基本條件(設計)後,下一個重要問題:是什麼驅動了模型在空間中的運動,也就是學習的過程?還是兩點:

一、 外來的資料。外部世界通過各種感知訊號,傳遞到人腦,塑造我們的模型。資料來源於觀察(observation)和實踐(experimentation)。觀察的資料一般用於學習各種統計模型,這種模型就是某種時間和空間的聯合分佈,也就是統計的關聯與相關性。實踐的資料用於學習各種因果模型,將行為與結果聯絡在一起。因果與統計相關是不同的概念。

二、內在的任務。這就是由內在的價值函式驅動的行為、以期達到某種目的。我們的價值函式是在生物進化過程中形成的。因為任務的不同,我們往往對環境中有些變數非常敏感,而對其它一些變數不關心。由此,形成不同的模型。機器人的腦、人腦都可以看成一個模型。任何一個模型由資料與任務來共同塑造。現在,我們就來到一個很關鍵的地方。同樣是在概率統計的框架下,當前的很多深度學習方法,屬於一個被我稱作“大資料、小任務正規化(big
data for small task)”。針對某個特定的任務,如人臉識別和物體識別,設計一個簡單的價值函式Loss function,用大量資料訓練特定的模型。這種方法在某些問題上也很有效。但是,造成的結果是,這個模型不能泛化和解釋。所謂泛化就是把模型用到其它任務,解釋其實也是一種複雜的任務。這是必然的結果:你種的是瓜, 怎麼希望得豆呢?

我多年來一直在提倡的一個相反的思路:人工智慧的發展,需要進入一個“小資料、大任務正規化(small data for big tasks)”,要用大量任務、而不是大量資料來塑造智慧系統和模型。在哲學思想上,必須有一個思路上的大的轉變和顛覆。自然辨證法裡面,恩格斯講過,“勞動創造了人”,這個有點爭議。我認為一個更合適的說法是“任務塑造了智慧”。人的各種感知和行為,時時刻刻都是被任務驅動的。這是我過去很多年來一直堅持的觀點,也是為什麼我總體上不認可深度學習這個學派的做法,雖然我自己是最早提倡統計建模與學習的一批人,但是後來我看到了更大的問題和局勢。當然,我們的假設前提是智慧系統已經有了前面講的基本的設定,這個系統設定是億萬年的進化得來的,是不是通過大量資料了打磨(淘汰)出來的呢。有道理!如果我們把整個發展的過程都考慮進來,智慧系統的影響可以分成三個時間段:(1)億萬年的進化,被達爾文理論的一個客觀的適者生存的pheontype
landscape驅動;(2)千年的文化形成與傳承;(3)幾十年個體的學習與適應。 我們人工智慧研究通常考慮的是第三個階段。

那麼,如何定義大量的任務?人所感興趣的任務有多少,是個什麼空間結構?這個問題,心理和認知科學一直說不清楚,寫不下來。這是人工智慧發展的一個巨大挑戰。理清了這些前提條件,帶著這樣的問題,下面我用六節分別介紹六大領域的問題和例子,看能不能找到共性的、統一的框架和表達模型。過去幾年來,我的研究中心一直把這六個領域的問題綜合在一起研究,目的就是尋找一個統一的構架,找到“烏鴉”這個解。

第五節 計算機視覺:從“深”到“暗” Dark, Beyond Deep

視覺是人腦最主要的資訊來源,也是進入人工智慧這個殿堂的大門。我自己的研究也正是從這裡入手的。這一節以一個具體例子來介紹視覺裡面的問題。當然,很多問題遠遠沒有被解決。

這是我家廚房的一個視角。多年前的一個下午,我女兒放學回家,我正在寫一個大的專案申請書,就拍了這一張作為例子。影象就是一個畫素的二維矩陣,可是我們感知到非常豐富的三維場景、行為的資訊;你看的時間越長,理解的也越多。下面我列舉幾個被主流(指大多數研究人員)忽視的、但是很關鍵的研究問題。

一、幾何常識推理與三維場景構建。以前計算機視覺的研究,需要通過多張影象(多視角)之間特徵點的對應關係,去計算這些點在三維世界座標系的位置(SfM、SLAM)。其實人只需要一張影象就可以把三維幾何估算出來。最早我在2002與一個學生韓峰發表了一篇文章,受到當時幾何學派的嘲笑:一張影象怎麼能計算三維呢,數學上說不通呀。其實,在我們的人造環境中,有很多幾何常識和規律:比如,你坐的椅子高度就是你小腿的長度約16英寸,桌子約30英寸,案臺約35英寸,門高約80英寸
— 都是按照人的身體尺寸和動作來設計的。另外,人造環境中有很多重複的東西,比如幾個窗戶一樣大小一致,建築設計和城市規劃都有規則。這些就是geometric common sense,你根據這些幾何的約束就可以定位很多點的三維位置,同時估計相機位置和光軸。

見下圖所示,在這個三維場景中,我們的理解就可以表達成為一個層次分解(compositional)的時空因果的解譯圖(Spatial,Temporal and Causal Parse Graph),簡稱 STC-PG。STC-PG是一個極其重要的概念,我下面會逐步介紹。

幾何重建的一個很重要的背景是,我們往往不需要追求十分精確的深度位置。比如,人對三維的感知其實都是非常不準的,它的精確度取決於你當前要執行的任務。在執行的過程中,你不斷地根據需要來提高精度。比如,你要去拿幾米以外的一個杯子,一開始你對杯子的方位只是一個大致的估計,在你走近、伸手的過程中逐步調整精度。

這就回到上一節談的問題,不同任務對幾何與識別的精度要求不一樣。這是人腦計算非常高效的一個重要原因。最近,我以前一個博士後劉曉白(現在是助理教授)和我其他學生在這方面取得了很好進展,具體可以檢視他們相關文章。

二、場景識別的本質是功能推理。現在很多學者做場景的分類和分割都是用一些影象特徵,用大量的圖片例子和手工標註的結果去訓練神經網路模型 — 這是典型的“鸚鵡”模式。而一個場景的定義本質上就是功能。當你看到一個三維空間之後,人腦很快就可以想象我可以幹什麼:這個地方倒水,這裡可以拿杯子,這裡可以坐著看電視等。現代的設計往往是複合的空間,就是一個房間可以多種功能,所以簡單去分類已經不合適了。比如,美式廚房可以做飯、洗菜、用餐、聊天、吃飯。臥室可以睡覺、梳妝、放衣服、看書。場景的定義是按照你在裡面能夠幹什麼,這個場景就是個什麼,按照功能劃分,這些動作都是你想象出來的,實際影象中並沒有。人腦感知的識別區與運動規劃區是直接互通的,相互影響。我的博士學生趙一彪就是做這個的,他畢業去了MIT做認知科學博後,現在創立了一家自動駕駛的AI公司。為了想象這些功能,人腦有十分豐富的動作模型,這些動作根據尺度分為兩類(見下圖)。第一類(左圖)是與整個身體相關的動作,如坐、站、睡覺、工作等等;第二類(右圖)是與手的動作相關的,如砸、剁、鋸、撬等等。這些四維基本模型(三維空間加一維時間)可以通過日常活動記錄下來,表達了人的動作和傢俱之間,以及手和工具之間的關係。正因為這一點,心理學研究發現我們將物體分成兩大類,分別存放在腦皮層不同區域:一類是跟手的大小有關,跟手的動作相關的,如你桌上的東西;另一類是跟身體有關,例如傢俱之類。

有了這個理解,我們就知道:下面兩張圖,雖然影象特徵完全不同,但是他們是同一類場景,功能上是等價的。人的活動和行為,不管你是哪個國家、哪個歷史時期,基本是不變的。這是智慧泛化的基礎,也就是把你放到一個新的地區,你不需要大資料訓練,馬上就能理解、適應。這是我們能夠舉一反三的一個基礎。 

回到前面的那個STC-PG解譯圖,每個場景底下其實就分解成為一些動作和功能 (見STC-PG圖中的綠色方片節點)。由計算機想象、推理的各種功能決定對場景的分類。 想象功能就是把人的各種姿態放到三維場景中去擬合(見廚房解譯圖中人體線畫)。這是完全不同於當前的深度學習方法用的分類方法。

三、物理穩定性與關係的推理。我們的生活空間除了滿足人類的各種需求(功能、任務)之外, 另一個基本約束就是物理。我們對影象的解釋和理解被表達成為一個解譯圖,這個解譯圖必須滿足物理規律,否則就是錯誤的。比如穩定性是人可以快速感知的,如果你發現周圍東西不穩,要倒了,你反應非常快,趕緊閃開。最近我們專案組的耶魯大學教授Brian Scholl的認知實驗發現,人對物理穩定性的反應是毫秒級,第一反應時間大約
100ms。我們對影象的理解包含了物體之間的物理關係,每個物體的支撐點在那裡。比如,下面這個圖,吊燈和牆上掛的東西,如果沒有支撐點,就會掉下來(右圖)。這個研究方向,MIT認知科學系的Josh Tenenbuam教授與我都做了多年。

 

我提出了一個新的場景理解的minimax標準:minimize instability and maximize functionality最小化不穩定性且最大化功能性。這比以前我們做影象理解的用的MDL(最小描述長度)標準要更靠譜。這是解決計算機視覺的基本原理,功能和物理是設計場景的基本原則。幾何尺寸是附屬於功能推出來的,比如椅子的高度就是因為你要坐得舒服,所以就是你小腿的長度。回到我家廚房的例子,你就會問,那裡面的水是如何被檢測到的呢?水是看不見的,花瓶和水壺裡的水由各種方式推出來的。另外,你可能注意到,桌上的番茄醬瓶子是倒立著,為什麼呢?
你可能很清楚,你家的洗頭膏快用完的時候,瓶子是不是也是的倒著放的呢?這就是對粘稠液體的物理和功能理解之後的結果。由此,你可以看到我們對一個場景的理解是何等“深刻”,遠遠超過了用深度學習來做的物體分類和檢測。

四、意向、注意和預測。廚房那張圖有一個人和一隻狗,我們可以進一步識別其動作、眼睛注視的地方,由此推導其動機和意向。這樣我們可以計算她在幹什麼、想幹什麼,比如說她現在是渴了,還是累了。通過時間累積之後,進而知道她知道哪些,也就是她看到了或者沒有看到什麼。在時間上做預測,她下面想幹什麼。只有把這些都計算出來了,機器才能更好地與人進行互動。所以,雖然我們只看到一張圖片,那張STC-PG中,我們增加了時間維度,對人和動物的之前和之後的動作,做一個層次的分析和預測。當機器人能夠預判別人的意圖和下面的動作,那麼它才能和人進行互動和合作。後面,我們講的語言對話可以幫助人機互動和合作;但是,我們日常很多互動協助,靠的是默契,不需要言語也能做不少事。

下面的這一張圖,是多攝像機的一個綜合場景的解譯例項。這是我的實驗室做出來的一個視覺系統。這個視訊的理解就輸出為一個大的綜合的STC-PG。在此基礎上,就可以輸出文字的描述(I2T)和回答提問 QA。我們把它叫做視覺圖靈測試,網址:visualturingtest.com。 

與第一節講的機器人競賽類似,這也是一個DARPA專案。測試就是用大量視訊,我們算出場景和人的三維的模型、動作、屬性、關係等等,然後就來回答各種各樣的1000多個問題。現在一幫計算機視覺的人研究VQA(視覺問答),就是拿大量的影象和文字一起訓練,這是典型的“鸚鵡”系統,基本都是“扯白”。回答的文字沒有真正理解影象的內容,常常邏輯不通。我們這個工作是在VQA之前,認真做了多年。我們系統在專案DARPA測試中領先,當時其它團隊根本無法完成這項任務。可是,現在科研的一個現實是走向“娛樂化”:膚淺的歌曲流行,大家都能唱,複雜高深的東西大家躲著走。

既然說到這裡,我就順便說說一些競賽的事情。大約從2008年開始,CVPR會議的風氣就被人“帶到溝裡”了,組織各種資料集競賽,不談理解了,就是數字掛帥。中國很多學生和團隊就開始參與,俗稱“刷榜”。我那個時候跟那些組織資料集的人說(其實我自己2005年是最早在湖北蓮花山做大型資料標註的,但我一早就看到這個問題,不鼓勵刷榜),你們這些比賽前幾名肯定是中國學生或者公司。現在果然應驗了,大部分榜上前幾名都是中國人名字或單位了。咱們刷榜比打乒乓球還厲害,刷榜變成咱們AI研究的“國球”。所謂刷榜,一般是下載了人家的程式碼,改進、調整、搭建更大模組,這樣速度快。我曾經訪問一家技術很牛的中國公司(不是搞視覺的),那個公司的研發主管非常驕傲,說他們刷榜總是贏,美國一流大學都不在話下。我聽得不耐煩了,我說人家就是兩個學生在那裡弄,你們這麼大個團隊在這裡刷,你程式碼裡面基本沒有演算法是你自己的。如果人家之前不公佈程式碼,你們根本沒法玩。很多公司就拿這種刷榜的結果宣傳自己超過了世界一流水平。

五、任務驅動的因果推理與學習。前面我談了場景的理解的例子,下面我談一下物體的識別和理解,以及為什麼我們不需要大資料的學習模式,而是靠舉一反三的能力。

我們人是非常功利的社會動物,就是說做什麼事情都是被任務所驅動的。這一點,2000年前的司馬遷就已經遠在西方功利哲學之前看到了( 《史記》 “貨殖列傳” ): 
“天下熙熙,皆為利來;天下攘攘,皆為利往。” 那麼,人也就帶著功利的目的來看待這個世界,這叫做“teleological stance”。這個物體是用來幹什麼的?它對我有什麼用?怎麼用?當然,有沒有用是相對於我們手頭的任務來決定的。很多東西,當你用不上的時候,往往視而不見;一旦要急用,你就會當個寶。俗話叫做“勢利眼”,沒辦法,這是人性!你今天幹什麼、明天幹什麼,每時每刻都有任務。俗話又叫做“屁股決定腦袋”,一個官員坐在不同位置,他就有不同的任務與思路,位置一調,馬上就“物是人非”了。我們的知識是根據我們的任務來組織的。那麼什麼叫做任務呢?如何表達成數學描述呢?每個任務其實是在改變場景中的某些物體的狀態。牛頓發明了一個詞,在這裡被借用了:叫做fluent。這個詞還沒被翻譯到中文,就是一種可以改變的狀態,我暫且翻譯為“流態”吧。比如,把水燒開,水溫就是一個流態;番茄醬與瓶子的空間位置關係是一個流態,可以被擠出來;還有一些流態是人的生物狀態,比如餓、累、喜悅、悲痛;或者社會關係:從一般人,到朋友、再到密友等。人類和動物忙忙碌碌,都是在改變各種流態,以提高我們的價值函式(利益)。

懂得這一點,我們再來談理解影象中的三維場景和人的動作。其實,這就是因果關係的推理。所謂因果就是:人的動作導致了某種流態的改變。理解影象其實與偵探(福爾摩斯)破案一樣,他需要的資料往往就是很小的蛛絲馬跡,但是,他能看到這些蛛絲馬跡,而普通沒有受偵探訓練的人就看不見。那麼,如何才能看到這些蛛絲馬跡呢?其一、你需要大量的知識,這個知識來源於影象之外,是你想象的過程中用到的,比如一個頭發怎麼掉在這裡的?還有就是行為的動機目的,犯案人員到底想改變什麼“流態”?

我把這些影象之外的東西統稱為“暗物質”— Dark Matter。物理學家認為我們可觀察的物質和能量只是佔宇宙總體的5%,剩下的95%是觀察不到的暗物質和暗能量。視覺與此十分相似:感知的影象往往只佔5%,提供一些蛛絲馬跡;而後面的95%,包括功能、物理、因果、動機等等是要靠人的想象和推理過程來完成的。

有了這個認識,我們來看一個例子(見下圖左)。這個例子來自我們CVPR2015年發的paper,主要作者是朱毅鑫,這也是我很喜歡的一個工作。一個人要完成的任務是砸核桃,改變桌子上那個核桃的流態。把這個任務交給UCLA一個學生,他從桌面上的工具裡面選擇了一個錘子,整個過程沒有任何過人之處,因為你也會這麼做。不過你細想一下,這個問題還相當複雜。這個動作就包含了很多資訊:他為什麼選這個錘子而不選別的東西,他為什麼拿著錘這個柄靠後的位置?他揮動的力度用多少,這都是經過計算的。這還有幾千幾萬的可能其他各種選擇、解法,他沒有選擇,說明他這個選法比其它的選擇肯定會好,好在哪呢?看似簡單的問題,往往很關鍵,一般人往往忽略了。

你通過這一琢磨、一對比就領悟到這個任務是什麼,有什麼竅門。以前學徒就是跟著師傅學,師傅經常在做任務,徒弟就看著,師傅也不教,徒弟就靠自己領悟。有時候師傅還要留一手,不然你早早出師了,搶他的飯碗。有時候師傅擋著不讓你看;莫言的小說就有這樣的情節。人就是在觀察的時候,把這個任務學會了。現在到一個新的場景(圖右),原來學習的那些工具都不存在了,完全是新的場景和物體,任務保持不變。你再來砸這個核桃試試看,怎麼辦?人當然沒有問題,選這個木頭做的桌子腿,然後砸的動作也不一樣。這才是舉一反三,這才是智慧,這沒有什麼其他資料,沒有大量資料訓練,這不是深度學習方法。那這個演算法怎麼做的呢?我們把對這個物理空間、動作、因果的理解還是表達成為一個Spatial,Temporal
and Causal Parse Graph(STC-PG)。這個STC-PG包含了你對空間的理解(物體、三維形狀、材質等)、時間上動作的規劃、因果的推理。最好是這樣子砸,它物理因果能夠實現,可能會被砸開,再連在一塊來求解,求時間、空間和因果的這麼一個解析圖,就是一個解。也就是,最後你達到目的,改變了某種物理的流態。我再強調幾點: 

一、這個STC-PG的表達是你想象出來的。這個理解的過程是在你動手之前就想好了的,它裡面的節點和邊大多數在影象中是沒有的,也就是我稱作的“暗物質”。

二、這個計算的過程中,大量的運算屬於“top-down”自頂向下的計算過程。也就是用你腦皮層裡面學習到的大量的知識來解釋你看到的“蛛絲馬跡”,形成一個合理的解。而這種Top-down的計算過程在目前的深度多層神經網路中是沒有的。神經網路只有feedforward 向上逐層傳播資訊。你可能要說了,那不是有Back-propagation嗎?那不是top-down。一年前,LeCun來UCLA做講座,他看到我在座,就說DNN目前缺乏朱教授一直提倡的Top-Down計算程序。

三、學習這個任務只需要極少的幾個例子。如果一個人要太多的例子,說明Ta腦袋“不開竅”,智商不夠。順便說一句,我在UCLA講課,期末學生會給老師評估教學質量。一個常見的學生意見就是朱教授給的例子太少了。對不起,我沒時間給你上課講那麼多例子,靠做題、題海訓練,那不是真本事,也不是學習的本質。子曰:“學而不思則罔,思而不學則殆”。這裡的“思”應該是推理,對於自然界或者社會的現象、行為和任務,形成一個符合規律的自洽的解釋,在我看來就是一個STC-PG。

那麼STC-PG是如何推匯出來的呢?它的母板是一個STC-AOG,AOG就是And-Or Graph與或圖。這個與或圖是一個複雜的概率語法圖模型,它可以匯出巨量的合乎規則的概率事件,每一個事件就是STC-PG。這個表達與語言、認知、機器人等領域是一致的。在我看來,這個STC-AOG是一個統一表達,它與邏輯以及DNN可以打通關節。這裡就不多講了。接著砸核桃的例子講,還是朱毅鑫那篇文章的實驗,這個實驗很難做。比如現在的一個任務是“剷土”,我給你一個例子什麼叫剷土,然後開始測試這個智慧演算法(機器人)的泛化能力。見下圖。 

第一組實驗(圖左)。我給你一些工具,讓你剷土,機器人第一選擇挑了這個鏟子,這個不是模式識別,它同時輸出用這個鏟子的動作、速度;輸出鏟子柄的綠色地方表示它要手握的地方,這個紅的表示它用來剷土的位置。第二選擇是一把刷子。

第二組實驗(圖中)。假如我要把這些工具拿走,你現在用一些家裡常見的物體,任務還是剷土。它的第一選擇是鍋,第二選擇是杯子。二者的確都是最佳選擇。這是計算機視覺做出來的,自動的。

第三組實驗(圖右)。假如我們回到石器時代,一堆石頭能幹什麼事情?所以我經常說,咱們石器時代的祖先,比現在的小孩聰明。因為他們能夠理解這個世界的本質,現在,工具和物體越來越特定了,一個工具做一個任務,人都變成越來越傻了。視覺認知就退化成模式識別的問題了:從原來工具的理解變成一個模式識別。也就是由烏鴉變鸚鵡了。

計算機視覺小結:我簡短總結一下視覺的歷史。見下圖。

視覺研究前面25年的主流是做幾何,以形狀和物體為中心的研究:Geometry-Based and Object-Centered。最近25年是從影象視角通過提取豐富的影象特徵描述物體的外觀來做識別、分類: Appearance-Based and View-Centered。幾何當然決定表觀。那麼幾何後面深處原因是什麼呢?幾何形狀的設計是因為有任務,最頂層是有任務,然後考慮到功能、物理、因果,設計了這些物體再來產生影象,這是核心問題所在。我把在當前影象是看不見的“東西”叫dark
matter。物理裡面dark matter energy佔95%,確確實實在我們智慧裡面dark matter也佔了大部分。而你看到的東西就是現在深度學習能夠解決的,比如說人臉識別、語音識別,就是很小的一部分看得見的東西;看不見的在後面,才是我們真正的智慧,像那個烏鴉能做到的。

所以,我的一個理念是:計算機視覺要繼續發展,必須發掘這些“dark matter”。把影象中想象的95%的暗物質與影象中可見的5%的蛛絲馬跡,結合起來思考,才能到達真正的理解。現在大家都喜歡在自己工作前面加一個Deep,以為這樣就算深刻了、深沉了,但其實還是非常膚淺的。不管你多深,不管你卷積神經網路多少層,它只是處理可見的影象表觀特徵、語音特徵,沒有跳出那5%,對吧?那些認為深度學習解決了計算機視覺的同學,我說服你了麼?如果沒有,後面還有更多的內容。

視覺研究的未來,我用一句話來說:Go Dark, Beyond Deep — 發掘暗,超越深。這樣一來,視覺就跟認知和語言接軌了。

第六節 認知推理:走進內心世界

上一節講到的智慧的暗物質,已經屬於感知與認知的結合了。再往裡面走一步,就進入人與動物的內心世界Mind, 內心世界反映外部世界,同時受到動機任務的影響和扭曲。研究內涵包括:

Ta看到什麼了?知道什麼了?什麼時候知道的?這其實是對視覺的歷史時間求積分。 
Ta現在在關注什麼?這是當前的正在執行的任務。 
Ta的意圖是什麼?後面想幹什麼?預判未來的目的和動機。 
Ta喜歡什麼?有什麼價值函式?這在第九節會談到具體例子。

自從人工智慧一開始,研究者就提出這些問題,代表人物是Minsky:society of minds,心理學研究叫做Theory of minds。到2006年的時候,MIT認知科學系的Saxe與Kanwisher(她是我一個專案合作者)發現人的大腦皮層有一個專門的區,用於感受、推理到別人的想法:我知道你在想什麼、幹什麼。這是人工智慧的重要部分。

說個通俗的例子,你可能聽到過這樣的社會新聞:某男能夠同時與幾個女朋友維持關係,而且不被對方發現,就是他那幾個女朋友互相不知情。這其實很難做到,因為你一不小心就要暴露了。他需要記住跟誰說過什麼謊話、做過或者答應過什麼事。這種人的這個腦皮層區一定是特別發達,而他的那些女朋友的這個區可能不那麼發達。電影中的間諜需要特別訓練這方面的“反偵察”能力,就是你儘量不讓對方發現你的內心。這是極端狀況。現實生活中,一般非隱私性的活動中,我們是不設防的,也就是“君子坦蕩蕩”。 

不光是人有這個偵察與反偵察的能力,動物也有(見上圖)。比如說這個鳥(圖左),它藏果子的時候,會檢視周圍是否有其它鳥或者動物在那裡看到它;如果有,它就不藏,它非要找到沒人看它的時候和地方藏。這就是它在觀察你,知道你知道什麼。圖中是一個狐狸和水獺對峙的視訊。水獺抓到魚了以後,發現這個狐狸在岸上盯著它呢,它知道這個狐狸想搶它嘴裡叼著的魚。水獺就想辦法把魚藏起來,它把這個魚藏到水底下,然後這個狐狸去找。這說明了動物之間互相知道對方在想什麼。

小孩從一歲多的時候開始就有了這個意識。一個關鍵反應證據是:他會指東西給你看,你看到了、還是沒看到的,他會知道。Felix Warneken現在在哈佛大學當心理學系的助理教授。他當博士生的時候做過一系列心理實驗。一般一歲多的小孩能知道給你開門,小孩很樂意、主動去幫忙。小孩很早就知道跟人進行配合,這就是人機互動。你把這個小孩看成一個機器人的話,你要設計一個機器人,就是希望它知道看你想幹什麼,這是人工智慧的一個核心表現。

儘管人工智慧和認知科學,以及最近機器人領域的人都對這個問題感興趣,但是,大家以前還都是嘴上、紙上談兵,用的是一些toy examples作為例子來分析。要做真實世界的研究,就需要從計算機視覺入手。計算機視覺裡面的人呢,又大部分都在忙著刷榜,一時半會還沒意思到這是個問題。我的實驗室就捷足先登,做了一些初步的探索,目前還在積極推進之中。

 

我們首先做一個簡單的試驗,如上圖。這個人在廚房裡,當前正在用微波爐。有一個攝像頭在看著他,就跟監控一樣,也可以是機器人的眼睛(圖左)。首先能夠看到他目前在看什麼(圖中),然後,轉換視角,推算他目前看到了什麼(圖右)。 

上面這個圖是實驗的視訊的截圖。假設機器人事先已經熟悉某個三維房間(圖e),它在觀察一個人在房間裡面做事(圖a)。為了方便理解,咱們就想象這是一個養老院或者醫院病房,機器人需要知道這個人現在在幹什麼,看什麼(圖c)。它的輸入僅僅是一個二維的視訊(圖a)。它開始跟蹤這個人的運動軌跡和眼睛注視的地方,顯示在圖e的那些軌跡和圖f的行為分類。然後,圖d(右上角)是它估算出來的,這個人應該在看什麼的圖片。也就是,它把它附體到這個人身上,來感知。這個結果與圖b對比,非常吻合。圖b是這個人帶一個眼鏡,眼鏡有一個小攝像頭記錄下來的,他確實在看的東西。這個實驗結果是魏平博士提供的,他是西交大前校長鄭南寧老師那裡的一個青年教師,博士期間在我實驗室訪問,後來又回來進修。等。這個這裡面需要推測動作與物體的時空互動,動作隨時間的轉換,手眼協調。然後,進一步猜他下面幹什麼,意圖等細節我不多講了。對這個人內心的狀態,也可以用一個STC-AOG
和STC-PG 來表達的,見下圖,大致包含四部分。

一、時空因果的概率“與或圖”,STC-AOG。它是這個人的一個總的知識,包含了所有的可能性,我待會兒會進一步闡述這個問題。 剩下的是他對當前時空的一個表達,是一個STC-PG解譯圖。此解譯圖包含三部分,圖中表達為三個三角形,每個三角形也是一個STC-PG 解譯圖。

二、當前的情景situation,由上圖的藍色三角形表示。當前的情況是什麼,這也是一個解,表示視覺在0-t時間段之間對這個場景的理解的一個解譯圖。

三、意向與動作規劃圖,由上圖的綠色三角形表示。這也是一個層次化的解譯圖,預判他下面還會做什麼事情,

四、當前的注意力,由上圖的紅色三角形表示。描述他正在關注什麼。

把這整個解譯圖放在一塊,基本上代表著我們腦袋的過去、現在、未來的短暫時間內的狀態。用一個統一的STC-PG 和 STC-AOG來解釋。 這是一個層次的分解。 因為是Composition, 它需要的樣本就很少。

有人要說了,我的深度神經網路也有層次,還一百多層呢。我要說的是,你那一百多層其實就只有一層,對不對?因為你從特徵做這個識別,中間的東西是什麼你不知道,他不能去解釋中間那些過程,只有最後一層輸出物體類別。

上面說的這個表達,是機器人對某個人內心狀態的一個估計,這個估計有一個後驗概率,這個估計不是唯一的,存在不確定性。而且,它肯定不是真相。不同的人觀察某個人,可能估計都不一樣。那麼在一個機器與人共生共存的環境中,假設這個場景裡有N個機器人或者人,這裡面有很多N個“自我”minds。然後,每個人有對別人有一個估計,這就有N x(N-1)個minds表達。我知道你在想什麼,你知道我在想什麼,這至少是平方級的。你有一百個朋友的話,哪個朋友他腦袋裡想什麼你心裡都有數。關係越近,理解也就越深,越準確。當然,我們這裡只是做一階推理,在複雜、對抗的環境中,人們不得不用多階的表達。當年司馬懿和諸葛亮在祁山對峙時,諸葛亮比司馬懿總是要多算一階。所謂兵不厭詐,就是有時候我故意把一個錯誤資訊傳給你,《三國演義》中很多此類的精彩故事,比如周瑜打黃蓋、蔣幹盜書。我用下面這個圖來大致總結一下。兩個人A與B或者一個人一個機器人,他們腦袋裡面的表達模式。圖中是一個巢狀的遞迴結構,每一個橢圓代表一個大腦的內心mind。

每個mind除了上面談到的知識STC-AOG 和狀態STC-PG,還包含了價值函式,就是價值觀,和決策函式。價值觀驅動動作,然後根據感知、行動去改變世界,這樣因果就出來了。我後面再細談這個問題。

最底下中間的那個橢圓代表真實世界(“上帝”的mind,真相只有TA知道,我們都不知道),上面中間的那個橢圓是共識。多個人的話就是社會共識。在感知基礎上,大家形成一個統一的東西,共同理解,我們達成共識。比如,大家一起吃飯,菜上來了,大家都看到這個菜是什麼菜,如果沒有共識那沒法弄。比如,“指鹿為馬”或者“皇帝的新裝”,就是在這些minds之間出現了不一致的東西。這是所謂“認識論”裡面的問題。以前,在大學學習認識論,老師講得比較空泛,很難理解;現在你把表達寫出來,一切都清楚了。這也是人工智慧必須解決的問題。我們要達成共識,共同的知識,然後在一個小的團體、大致社會達成共同的價值觀。當有了共同價值觀的時候,就有社會道德和倫理規範,這都可以推匯出來了。俗話說,入鄉隨俗。當你加入一個新的團體或者社交群體,你可能先觀察看看大家都是怎麼做事說話的。機器人要與人共生共存
必須理解人的團體的社會道德和倫理規範。所以說,這個認識論是機器人發展的必經之道。烏鴉知道人類在幹什麼,它才能夠利用這個在社會裡生存。那麼如何達成共識呢?語言就是必要的形成共識的工具了。

第七節 語言通訊:溝通的認知基礎

我要介紹的人工智慧的第三個領域是語言、對話。最近我兩次在視覺與語言結合的研討會上做了報告,從我自己觀察的角度來談,視覺與語言是密不可分的。

人類的語言中樞是獨特的,有趣的是它在運動規劃區的附近。我們為什麼要對話呢?語言的起源就是要把一個人腦袋(mind)的一個資訊表達傳給你一個人,這就包括上一節講的知識、注意、意向計劃,歸納為圖中那三個三角形的表達。希望通過對話形成共識,形成共同的任務規劃,就是我們一致行動。所以,語言產生的基礎是人要尋求合作。動物之間就已經有豐富的交流的方式,很多藉助於肢體語言。人的對話不一定用語言,手語、啞劇(pantomine)同樣可以傳遞很多資訊。所以,在語言產生之前,人類就已經有了十分豐富的認知基礎,也就是上一節談的那些表達。沒有這樣的認知基礎,語言是空洞的符號,對話也不可能發生。發育心理學實驗表明,12個月的小孩就可以知道去指東西,更小年齡就不會,但是很多動物永遠達不到這個水平。舉個例子,有人做了個實驗。一群大猩猩坐在動物園裡,一個猩猩媽媽帶一個小猩猩,玩著玩著小猩猩跑不見了,然後這個媽媽去找。周圍一大堆閒著的猩猩坐在那裡晒太陽,它們明明知道那個小猩猩去哪了。如果是人的話,我們就會熱心地指那個小孩的方向,人天生是合作的,去幫助別人的,助人為樂,所以這是為什麼我們人進化出來了。猩猩不會,猩猩不指,它們沒有這個動機,它們腦袋與人相比一定是缺了一塊。人和動物相比,我們之所以能夠比他們更高階,因為腦袋裡有很多通訊的認知構架(就像多層網路通訊協議)在大腦皮層裡面,沒有這些認知構架就沒法通訊。研究語言的人不去研究底下的認知構架,那是不會有很大出息的。下面這個圖來源於人類學的研究的一個領軍人物
Michael Tomasello。 

除了需要這個認知基礎,語言的研究不能脫離了視覺對外部世界的感知、機器人運動的因果推理,否則語言就是無源之水、無本之木。這也就是為什麼當前一些聊天機器人都在“扯白”。我們先來看一個最基本的的過程:資訊的一次傳送。當某甲(sender)要傳送一條訊息給某乙(receiver),這是一個簡單的通訊communication。這個通訊的數學模型是當年貝爾實驗室夏農Shannon1948年提出來的資訊理論。首先把它編碼,因為這樣送起來比較短,比較快;針對噪聲通道,加些冗餘碼防錯;然後解碼,某乙就拿到了這個資訊。見下圖。

在這個通訊過程之中他有兩個基本的假設。第一、這兩邊共享一個碼本,否則你沒法解碼,這是一個基本假設。第二、就是我們有個共享的外部世界的知識在裡面,我們都知道世界上正在發生什麼什麼事件,比如哪個股票明天要漲了,哪個地方要發生什麼戰爭了等等。我給你傳過去的這個資訊其實是一個解譯圖的片段(PG:parse graph)。這個解譯圖的片段對於我們物理世界的一個狀態或者可能發生的狀態的描述。這個狀態也有可能就是我腦袋Mind裡面的一個想法、感覺、流態(fluents)。比如,很多女人拿起電話,叫做“煲粥”,就在交流內心的一些經歷和感受。

如果沒有這個共同的外部世界,那我根本就不知道你在說什麼。比如外國人聚在一起講一個笑話,我們可能聽不懂。我們中國人說“林黛玉”,那是非常豐富的一個文化符號,我們都明白誰是林黛玉,她的身世、情感、性格和價值觀,就輪到外國人聽不懂了。Shannon的通訊理論只關心碼本的建立(比如視訊編解碼)和通訊頻寬(3G,4G,5G)。1948年提出資訊理論後,儘管有很多聰明人、數學根底很強的人進到這個領域,這個領域一直沒有什麼大的突破。為什麼?因為他們忽視了幾個更重大的認識論的問題,避而不談:

甲應該要想一下:乙腦袋裡面是否與甲有一個共同的世界模型?否則,解碼之後,乙也不能領會裡面的內容?或者會誤解。那麼我發這個資訊的時候,措辭要儘量減少這樣的誤解。 
甲還應該要想一下:為什麼要發這個資訊?乙是不是已經知道了,乙關不關注這個資訊呢?乙愛不愛聽呢?聽後有什麼反應?這一句話說出去有什麼後果呢? 
乙要想一下:我為什麼要收這個資訊呢?你發給我是什麼意圖?這是在認知層面的,遞迴迴圈的認知,在編碼之外。所以,通訊理論就只管傳送,就像以前電報大樓的發報員,收錢發報,他們不管你發報的動機、內容和後果。

縱觀人類語言,中國的象形文字實在了不起。所謂象形文字就完全是“明碼通訊”。每個字就是外部世界的一個圖片、你一看就明白了,不需要編解碼。我覺得研究自然語言的人和研究視覺統計建模的人,都要好好看看中國的甲骨文,然後,所有的事情都清楚了。每個甲骨文字就是一張圖,圖是什麼?代表的就是一個解譯圖的片段(fragment of parse graph)。 

上面這個圖是一個漢字的演變和關係圖,從一本書叫做《漢字樹》得來的。幾年前,我到臺灣訪問,發現這本叢書,很有意思。這個圖是從眼睛開始的一系列文字。首先從具象的東西開始,這中間是一個眼睛,“目”字,把手搭在眼睛上面,孫悟空經常有這個動作,就是“看”(look)。然後是會意,比如“省”,就是細看,明察秋毫,畫一個很小的葉子在眼睛上面,指示說你看葉子裡面的東西,表示你要細看。然後開始表達抽象的概念,屬性attribute、時空怎麼表達,就是我們甲骨文裡面,表示出發、終止,表示人的關係,人的腦袋狀態,甚至表現倫理道德。就這樣,一直推演開。所以,搞視覺認知的,要理解物體功能就要追溯到石器時代去,搞語言的要追溯到語言起源。

下圖是另一個例子:日、月、山、水、木;鳥、雞、魚、象、羊。下面彩色的圖是我們實驗室現在用計算機視覺技術從影象中得到的一些物體的表達圖模型,其實就重新發明一些更具像的甲骨文。這項技術是由YiHong,司長長等博士做的無監督學習。他們的演算法發現了代表鳥的有頭、身子和腳、水波和水草等“類甲骨文”名詞符號。這種視覺的表達模型是可解釋explainable、直觀的。所以,從生成式模型的角度來看,語言就是視覺,視覺就是語言。

再來看看動詞。考考你們,這是啥意思?第一個字,兩隻手,一根繩子,在拖地上一個東西,拿根繩子拽。第二個很簡單,洗手。第三是關門。第四是援助的援字,一隻手把另外一個人的手往上拉。第五也是兩個手,一個手朝下一個手朝上,啥意思?我給你東西,你接受。第六是爭奪的爭,兩個手往相反的方向搶。第七兩個人在聊天。基本上,字已經表示了人和人之間的動作細節。

現在我的實驗室裡,計算機也能自動學出“類甲骨文”的動詞的表達,見下圖。我們學出來的這些兩個人互動的動作包括:坐、玩手機、握手、人拉人等等。我們把這些動作模型分別叫做4DHOI (4D Human-Object Interaction)、4Dhoi(4D hand-object interaction)、4DHHI (4D Human-Human Interaction)。 

我剛才說了名詞和動詞,還有很多其他的東西,我建議你們去研究一下,要建模型的話我們古代的甲骨文其實就是一個模型,他能夠把我們世界上所有需要表達的東西都給你表達了,是一個完備了的語言模型。

我再舉個複雜和抽象的例子,咱們古代人怎麼定義倫理道德,非常的漂亮!

引言中談到,大家擔心機器人進入社會以後,是不是會危害人類生存,所以引發了很多討論。有一次我參加一個DARPA內部會議,會議邀請了各界教授們討論這個問題,他們來自社會倫理學、認知科學、人工智慧等學科。大家莫衷一是。輪到我做報告,我就說,其實這個問題,中國古代人的智慧就已經想清楚了。倫理道德的“德”字怎麼定義的?什麼叫道德?道德規範是什麼,它是個相對的定義,隨著時間和人群而變化。我剛來美國的時候,美國社會不許墮胎、不許同性戀,現在都可以了。中國以前婦女都不許改嫁。甚至到幾十年前,我在家鄉都聽說這樣的規矩:如果一個婦女在路上,她的影子投到一個長老身上,那是大不敬,所以走路必須繞開,這就是一種社會規範。 

中文這個“德”字你看左邊是雙人旁,雙人旁其實不是兩個人,雙人旁在甲骨文畫的是十字路口(見最右邊那個圖),十字路口就是說你是要做個選擇,是個決策。你怎麼選擇?比如說一個老人倒在地上,你是扶他還是不扶他?這就是一個選擇。貪不貪汙、受不受賄這都是內心的一個選擇。這個選擇是你心裡面做出的,所以下面有個心字。那怎麼判斷你內心的選擇符不符合道德呢?社會不可能把大量規則逐條列出來,一個漢字也沒法表達那麼多的內容吧。“德”字上面是一個十字,十字下面一個四,其實不是四,而是眼睛,十個眼睛看著你。就是由群眾來評判的。這就相當於西方的陪審團,陪審團都是普通民眾中挑選出來的(那是更進一層的法律規範了)。他們如果覺得你做的事情能夠接受就是道德,如果不接受那就是不道德。所以,你在做選擇的時候,必須考慮周圍人的看法,人家腦袋裡會怎麼想,才決定這個東西做不做。所以,如果沒有上一節講的認知基礎,也就是你如果不能推斷別人的思想,那就無法知道道德倫理。研究機器人的一個很重要的一個問題是:機器要去做的事情它不知道該不該做。那麼它首先想一下(就相當於棋盤推演simulation):我如何做這個事情,人會有什麼反應,如果反應好就做,如果反應不好就不做,就這麼一個規則。以不變應萬變。那它怎麼知道你怎麼想的呢?它必須先了解你,你喜歡什麼、厭惡什麼。每個人都不一樣,你在不同的群體裡面,哪些話該說,哪些話不該說,大家心裡都知道,這才是互動,你沒有這方面知識你怎麼互動呢?所以我還是覺得我們古代的人很有智慧,比我們現在的人想的深刻的多,一個字就把一個問題說得很精闢。咱們現在大部分人不想問題,因為你不需要想問題了,大量媒體、廣告到處都是,時時刻刻吸引你的眼球,你光看都看不過來,還想個什麼呢!只要娛樂就好了。現在,我們回到語言通訊、人與機器人對話的問題。下圖就是我提出的一個認知模型。 

兩個人之間至少要表達五個腦袋minds:我知道的東西、你知道的東西、我知道你知道的東西、你知道我知道的東西、我們共同知道的東西。還有,對話的時候你的意圖是什麼等等諸多問題。具體我不講那麼多了。

最後,我想談一點,語言與視覺更深層的聯絡、與數學中代數拓撲的聯絡。拓撲學是什麼意思?就是說圖象空間,語言空間,就是一個大集合,全集。我們的每個概念往往是它的一個子集,比如說,所有的圖象是一個集合,一百萬個象素就是一百萬維空間,每張影象就是這百萬維空間的一個點。人臉是個概念,所有的人臉就是在這一百萬維空間的一個子集,但是這個子集和其它個子集要發生關係,這個關係叫拓撲關係。計算機的人把它叫做語法,對應於代數拓撲。比如,頭和脖子在肩膀上是合規的,概率很高。這個影象空間的結構其實就是語法,這個語法就是STC-AOG,時空因果的與或圖。語法可匯出“語言”,語言就是一個符合語法的句子的總的集合。STC-AOG就是知識的總體表達,而我們看到的眼前每一個例子是由STC-AOG匯出來的時空因果解譯圖STC-PG。計算機視覺用它,語言肯定用它,認知是它,機器人任務規劃也是它。這就是一個統一的表達。

第八節 博弈倫理:獲取、共享人類的價值觀

機器人要與人交流,它必須懂得人類價值觀。哲學和經濟學裡面有一個基本假設,認為一個理性的人(rational agent),他的行為和決策都由利益和價值驅動,總在追求自己的利益最大化。與此對應的是非理性的人。對於理性的人,你通過觀察他的行為和選擇,就可以反向推理、學習、估算他的價值觀。我們暫時排除他有可能故意假裝、迷惑我們的情況。這個價值觀我們把它表達為一個利益函式Utility function,用一個符號U表示。它通常包含兩部分:(1)Loss損失函式,或者Reward獎勵函式;(2)Cost消費函式。就是說,你做一件事得到多少利益,花費多少成本。我們可以把這個利益函式定義在流態的(fluents)空間裡面。我們每次行動,改變某些流態,從而在U定義的空間中向上走,也就是“升值”。由函式U對流態向量F求微分的話,就得到一個“場”。複習一下高等數學,我們假設一個人在某個時期,他的價值取向不是矛盾的。比如,如果他認為A比B好,B比C好,然後C比A好,那就迴圈了,價值觀就不自恰。這在場論中就是一個“漩渦”。一個處處“無旋”的場,就叫做一個保守場。其對於的價值觀U就是一個勢能函式。所謂“人往高處走、水往低處流”說的是社會和物理的兩個不同現象,本質完全一致。就是人和水都在按照各自的勢能函式在運動!那麼驅動人的勢能函式是什麼呢?人與人的價值不同,就算同一個人,價值觀也在改變。本文不討論這些社會層面的價值觀,我們指的是一些最基本的、常識性的、人類共同的價值觀。比如說把房間收拾乾淨了,這是我們的共識。 

上圖是我做的一個簡單的實驗。我把幾種不同的椅子、凳子放在我辦公室(左圖)和實驗室(右圖)。然後,我統計一下學生進來以後,他喜歡坐哪個椅子,實在不行可以坐地上。這樣我就可以得到這些椅子的排序。A、B、C、D、E、F、G排個序,見上面的統計圖。我觀察了這些人的選擇,就問:為什麼這個椅子比那個椅子好?是什麼好?這其實就反映了人的腦袋裡面一個基本的價值函式。又說一遍:很普通的日常現象,蘊含深刻的道路。蘋果落地不是這樣嗎?大家司空見慣了,就不去問這個問題了。

為了解答問題,我的兩個博士生朱毅鑫和搞物理和圖形學的蔣凡夫(他剛剛去Upenn賓州大學當助理教授),用圖形學的物理人體模型模擬人的各種的姿勢,然後計算出這些坐姿在這些椅子上的時候,身體幾大部件的受力分佈圖。見下圖,比如背部、臀部、頭部受多少力。

下圖中藍色的直方圖顯示了六個身體部位的受力分別圖。由此我們就可以推算出每個維度的價值函式。下面圖中六條紅色的曲線是負的價值函式,當人的坐姿使得各部位受力處於紅線較低的值,就有較高的“價值”,也就是坐得“舒服”。當然每個人可能不一樣,有的人腰疼必須坐硬板凳子有的人喜歡坐軟沙發。這也是為什麼,如果你觀察到有些異樣,可以推導這個人某地方可能受傷了。 

讀到這裡,你不禁要問:這不是與物理的勢能函式,如重力場,一樣嗎?對,就是一個道理。這也是在最後一節我將要說的:達爾文與牛頓的理論體系要統一。這對我們是常識,但是機器人必須計算出很多這樣的常識,TA需要設身處地為人著想,這個就不容易了。疊衣服也是我們做的另外一個例子。如果我們把這個保守的勢能函式視覺化為一個地形圖,那麼你疊一個衣服的過程,就像走一條登山的路徑。這個衣服我們原來搞亂了,它對應的狀態在谷底,最後疊好了就等於上到山頂了。每一步動作就有一個獎勵reward。我根據你疊衣服的過程,把這山形狀基本畫出來,機器就知道疊衣服這個任務的本質是什麼。你給它新的衣服,它也會疊了。機器人可以判斷你的價值觀。

最近大家談論較多的是機器人下棋,特別是下圍棋,的確刺激了國人的神經。下棋程式裡面一個關鍵就是學習價值函式,就是每一個可能的棋局,它要有一個正確的價值判斷。最近,各種遊戲、和增強學習也比較火熱。但這些研究都是在簡單的符號空間裡面玩。我實驗室做的這兩個例子是在真實世界,學習人的價值函式。有了價值函式,在一個多人環境中,就有了競爭與合作,形成我們上一節談到的社會規範、倫理道德。這些倫理、社會規範就是人群在競爭合作之中,受到外部物理環境與因果限制下,達成的暫時的準平衡態。每種平衡態不見得是一個固定的規則,要求大家做同樣的規定動作,而是一種概率的“行為的語法”。規則其實就是語法。說到底,這還是一種概率的時空因果與或圖STC-AOG的表達。在社會進化過程中,由於某些邊界條件的改變(如新的技術發明,像網際網路、人工智慧)或者是政策改變(如改革開放),打破了舊的平衡,社會急劇變化;然後,達成新的準平衡態。那麼社會規範對應的是另一個時空因果與或圖STC-AOG。你拿著一個準平衡態的STC-AOG模型去到另一個準平衡態生活,就出現所謂的“水土不服”現象。

談到這裡,我想順便對比兩大類學習方法。

一、歸納學習 Inductive learning。我們通過觀察大量資料樣本,這些樣本就是對某個時期、某個地域、某個人群達成的準平衡態的觀察。也是我前面談過的千年文化的形成與傳承。歸納學習的結果就是一個時空因果的概率模型,我把它表達為STC-AOG。每個時空的動作是一個STC-PG,解譯圖。

二、演繹學習 Deductive learning。這個東西文獻中很少,也就是從價值函式(還有物理因果)出發,直接推匯出這些準平衡態,在我看來,這也是一個STC-AOG。這就要求對研究的物件有深刻的、生成式的模型和理解。比如,諸葛亮到了祁山,先檢視地形,知道自己的隊伍、糧草情況,摸清楚對手司馬懿的情況(包括性格)。然後,他腦袋裡面推演,就知道怎麼佈局了。人的學習往往是兩者的結合。年輕的時候,歸納學習用得多一些,演繹學習往往是一種不成熟衝動,交點學費,但也可能發現了新天地。到了“五十而不惑”的時候,價值觀成型了,價值觀覆蓋的空間也基本齊全了,那麼基本上就用演繹學習。AlphaGo先是通過歸納學習,學習人類大量棋局;然後,最近它就完全是演繹學習了。AlphaGo的棋局空間與人類生存的空間複雜度還是沒法比的。而且,它不用考慮因果關係,一步棋下下去,那是確定的。人的每個動作的結果都有很多不確定因素,所以要困難得多。

第九節 機器人學:構建大任務平臺

我在第四節談到人工智慧研究的認知構架,應該是小資料、大任務正規化。機器人就是這麼一個大任務的科研平臺。它不僅要排程視覺識別、語言交流、認知推理等任務,還要執行大量的行動去改變環境。我就不介紹機械控制這些問題了,就用市面上提供的通用機器人平臺。前面介紹過,人和機器人要執行任務,把任務分解成一連串的動作,而每個動作都是要改變環境中的流態。我把流態分作兩大類: 

(1)物理流態 (Physical Fluents):如下圖左邊,刷漆、燒開水、拖地板、切菜。 
(2)社會流態 (Social Fluents): 如下圖右邊,吃、喝、 追逐、攙扶,是改變自己內部生物狀態、或者是與別人的關係。

 

當機器人重建了三維場景後(在談視覺的時候提到了,這其實是一個與任務、功能推理的迭代生成的過程),它就帶著功利和任務的眼光來看這個場景。如下圖所示,哪個地方可以站,哪個地方可以坐,哪個地方可以倒水等等。下面圖中亮的地方表示可以執行某個動作。這些圖在機器人規劃中又叫做Affordance Map。意思是:這個場景可以給你提供什麼? 

有了這些單個基本任務的地圖,機器人就可以做任務的規劃。這個規劃本身就是一個層次化的表達。文獻中有多種方法,我還是把它統一稱作一種STC-PG。這個過程,其實相當複雜,因為它一邊做,一邊還要不斷看和更新場景的模型。因為我前面介紹過,對環境三維形狀的計算精度是根據任務需要來決定的,也就是Task-Centered視覺表達。這個動作計劃的過程還要考慮因果、考慮到場景中別人的反應。考慮的東西越多,它就越成熟,做事就得體、不莽莽撞撞。我一開始講到的那個機器人競賽,這些感知和規劃的任務其實都交給了一群在後臺遙控的人。下面,我就簡單介紹幾個我實驗室得到的初步演示結果,後臺沒有遙控的人。我實驗室用的是一個通用的Baxter機器人,配上一個萬向移動的底座和兩個抓手(grippers),還有一些感測器、攝像頭等。兩個抓手是不同的,左手力道大,右手靈活。很有意思的是,如果你觀察過龍蝦等動物,它的兩個鉗子也是不同的,一個用來夾碎、一個是鋸齒狀的。

下圖是一個博士生舒天民教會了機器人幾種社交動作,比如握手。握手看似平常,其實非常微妙。但你走過去跟一個人握手的過程中,你其實需要多次判斷對方的意圖;否則,會出現尷尬局面。舒的論文在美國這邊媒體都報道過。

 

下面這個組圖是機器人完成一個綜合的任務。首先它聽到有人去敲門,推斷有人要進來,它就去開門。其次,它看到這個人手上拿個蛋糕盒子,雙手被佔了,所以需要幫助。通過對話,它知道對方要把蛋糕放到冰箱裡面,所以它就去幫人開冰箱的門(上右圖)。這個人坐下來後,他有一個動作是抓可樂罐,搖了搖,放下來。它必須推斷這個人要喝水,而可樂罐是空的(不可見的流態)。假設它知道有可樂在冰箱,它後面就開冰箱門拿可樂,然後遞給人。

當然,這個是受限環境,要能夠把樣的功能做成任意一個場景的話,那就基本能接近我們前面提到的可敬的烏鴉了。我們還在努力中!

第十節 機器學習:學習的極限和“停機問題”

前面談的五個領域,屬於各個層面上的“問題領域”,叫Domains。我們努力把這些問題放在一個框架中來思考,尋求一個統一的表達與演算法。而最後要介紹的機器學習,是研究解決“方法領域”(Methods),研究如何去擬合、獲取上面的那些知識。打個比方,那五個領域就像是五種釘子,機器學習是研究錘子,希望去把那些釘子錘進去。深度學習就像一把比較好用的錘子。當然,五大領域裡面的人也發明了很多錘子。只不過最近這幾年深度學習這把錘子比較流行。網上關於機器學習的討論很多,我這裡就提出一個基本問題,與大家探討:學習的極限與“停機問題”。

大家都知道,電腦科學裡面有一個著名的圖靈停機Halting問題,就是判斷圖靈機在計算過程中是否會停下了。我提出一個學習的停機問題:學習應該是一個連續交流與通訊的過程,這個交流過程是基於我們的認知構架的。那麼,在什麼條件下,學習過程會終止呢?當學習過程終止了,系統也就達到了極限。比如,有的人早早就決定不學習了。

首先,到底什麼是學習?

當前大家做的機器學習,其實是一個很狹義的定義,不代表整個的學習過程。見下圖。 它就包含三步: 
(1)你定義一個損失函式loss function 記作u,代表一個小任務,比如人臉識別,對了就獎勵1,錯了就是-1。 
(2)你選擇一個模型,比如一個10-層的神經網路,它帶有幾億個引數theta,需要通過資料來擬合。 
(3)你拿到大量資料,這裡假設有人給你準備了標註的資料,然後就開始擬合引數了。 
這個過程沒有因果,沒有機器人行動,是純粹的、被動的統計學習。目前那些做視覺識別和語音識別都是這一類。 

其實真正的學習是一個互動的過程。 就像孔子與學生的對話,我們教學生也是這樣一個過程。 學生可以問老師,老師問學生,共同思考,是一種平等交流,而不是通過大量題海、填鴨式的訓練。坦白說,我雖然是教授,現在就常常從我的博士生那裡學到新知識。這個學習過程是建立在認知構架之上的(第六節講過的構架)。我把這種廣義的學習稱作通訊學習Communicative Learning,見下圖。 

這個圖裡面是兩個人A與B的交流,一個是老師,一個是學生,完全是對等的結構,體現了教與學是一個平等的互動過程。每個橢圓代表一個腦袋mind,它包含了三大塊:知識theta、決策函式pi、價值函式mu。最底下的那個橢圓代表物理世界,也就是“上帝”腦袋裡面知道的東西。上面中間的那個橢圓代表雙方達成的共識。

這個通訊學習的構架裡面,就包含了大量的學習模式,包括以下七種學習模式(每種學習模式其實對應與圖中的某個或者幾個箭頭),這裡面還有很多模式可以開發出來。 
(1)被動統計學習passive statistical learning:上面剛剛談到的、當前最流行的學習模式,用大資料擬合模型。 
(2)主動學習active learning:學生可以問老師主動要資料,這個在機器學習裡面也流行過。 
(3)演算法教學algorithmic teaching:老師主動跟蹤學生的進展和能力,然後,設計例子來幫你學。這是成本比較高的、理想的優秀教師的教學方式。 
(4) 演示學習learning from demonstration:這是機器人學科裡面常用的,就是手把手叫機器人做動作。一個變種是模仿學習immitation learning。 
(5)感知因果學習perceptual causality:這是我發明的一種,就是通過觀察別人行為的因果,而不需要去做實驗驗證,學習出來的因果模型,這在人類認知中十分普遍。 
(6)因果學習causal learning:通過動手實驗, 控制其它變數, 而得到更可靠的因果模型, 科學實驗往往屬於這一類。 
(7)增強學習reinforcement learning:就是去學習決策函式與價值函式的一種方法。

我在第一節談到過,深度學習只是這個廣義學習構架裡面很小的一部分,而學習又是人工智慧裡面一個領域。所以,把深度學習等同於人工智慧,真的是坐井觀天、以管窺豹。

其次,學習的極限是什麼?停機條件是什麼?

對於被動的統計學習,文獻中有很多關於樣本數量或者錯誤率的上限。這裡我所說的學習的極限就遠遠超越了那些定義。我是指這個廣義的學習過程能否收斂?收斂到哪?學習的停機問題,就是這個學習過程怎麼終止的問題。就這些問題,我和吳英年正在寫一個綜述文章。

我們學習、談話的過程,其實就是某種資訊在這些橢圓之間流動的過程。那麼影響這個流動的因素就很多,我列舉幾條如下。

(1)教與學的動機:老師要去交學生一個知識、決策、價值,首先他必須確認自己知道、而學生不知道這個事。同理,學生去問老師,他也必須意識到自己不知道,而這個老師知道。那麼,一個關鍵是,雙方對自己和對方有一個準確的估計。

(2)教與學的方法:如果老師準確知道學生的進度,就可以準確地提供新知識,而非重複。這在algorithmic learning 和 perceptual causality裡面很明顯。

(3)智商問題:如何去測量一個機器的智商?很多動物,有些概念你怎麼教都教不會。

(4)價值函式:如果你對某些知識不感興趣,那肯定不想學。價值觀相左的人,那根本都無法交流,更別談相互傾聽、學習了。比如微信群裡面有的人就待不了,退群了,因為他跟你不一樣,收斂不到一起去,最後同一個群的人收斂到一起去了,互相增強。這在某種程度上造成了社會的分裂。

這個學習條件的設定條件不同,人們學習肯定不會收斂到同一個地方。中國14億人,有14億個不同的腦模型,這14億人中間,區域性又有一些共識,也就是共享的模型。我說的停機問題,就是這個動態過程中所達成的各種平衡態。

第十一節 總結:智慧科學 — 牛頓與達爾文理論體系的統一

到此,我摘要介紹了人工智慧這六大領域的一些前沿問題,希望幫助大家看到一個大致的輪廓與脈絡,在我眼中,它們在一個共同的認知構架下正在走向統一。其中有很多激動人心的前沿課題,等待年輕人去探索。那麼人工智慧這六大領域、或者叫“戰國六雄”,如何從當前鬧哄哄的工程實踐,成為一門成熟的科學體系呢?從人工智慧Artificial Intelligence變成 智慧科學Science of Intelligence,或者叫
Intelligence Science,這個統一的科學體系應該是什麼?

什麼叫科學?物理學是迄今為止發展最為完善的一門科學,我們可以借鑑物理學發展的歷史。我自己特別喜歡物理學,1986年報考中科大的時候,我填寫的志願就是近代物理(4系)。填完志願以後,我就回鄉下去了。我哥哥當時是市裡的幹部,他去高中檢視我的志願,一看報的是物理,只怕將來不好找工作,他就給我改報計算機。當時我們都沒見過計算機,他也沒跟我商量,所以我是誤打誤撞進了這個新興的專業,但心裡總是念念不忘物理學之美。

等到開學,上《力學概論》的課,教材是當時常務副校長夫婦寫的,我這裡就不提名字了,大家都知道,這是科大那一代人心中永恆的記憶。翻開書的第一頁,我就被緒論的文字震撼了。下面是一個截圖,劃了重點兩句話,討論如下。

(1)物理學的發展就是一部追求物理世界的統一的歷史。第一次大的統一就是牛頓的經典力學, 通過萬有引力把天界星體運動與世俗的看似複雜的物體運動做了一個統一的解釋。形成一個科學的體系,從此也堅定了大家的信念: 
“物理世界存在著完整的因果鏈條”。 
物理學的責任就是尋找支配自然各種現象的統一的力。這完全是一個信念,你相信了,就為此努力!自牛頓以來,300多年了,物理學家還在奮鬥,逐步發現了一個美妙的宇宙模型。相比於物理學,可嘆的是,人工智慧的研究,到目前為止,極少關注這個科學的問題。頂級的工程學院也不教這個事情,大家忙著教一些技能。解決一些小問題,日子就能過得紅紅火火。80年代有些知名教授公開講智慧現象那麼複雜,根本不可能有統一的解釋,更可能是“a
bag of tricks”一麻袋的詭計。有一些“兵來將擋、水來土掩”的工程法則就行了。這當然是膚淺和短視的。

我的博士導師Mumford1980年代從純數學轉來學習、研究人工智慧,他的理想是為智慧構建一個數學體系(mathematics of intelligence)。以他的身份做這種轉變是極其不容易的(他有很多嚇人的頭銜,包括菲爾茲獎、麥克阿瑟天才獎、國際數學家協會主席、美國國家科學勳章), 而我到目前還沒有見過第二個這麼轉型的大家。 1991年我讀完大學,申請研究生院的個人陳述(Statement of Purpose)中就懵懵懂懂地提出要探索這樣一種統一框架。當時也沒有網際網路,我也沒有聽說過Mumford。記得當時科大計算機系剛剛有了第一臺鐳射印表機,替代針式列印。我買了兩包“佛子嶺”香菸給管機房的師兄,讓他一定要幫我把這三頁紙的個人陳述好好排版、列印出來!結果,大部分學校都拒絕了我的申請,而我導師把我錄取到哈佛讀博士。同一年,
科大計算機系一個師弟吳英年被錄取到哈佛統計學讀博,我們就成了室友。他對物理和統計的理解十分深刻,過去25年我們一直在一起合作。現在回頭看,人生何其幸哉!

(2)物理學把生物的意志排除在研究之外,而這正好是智慧科學要研究的物件。智慧科學要研究的是一個物理與生物混合的複雜系統。智慧作為一種現象,就表現在個體與自然、社會群體的相互作用和行為過程中。我個人相信這些行為和現象必然有統一的力、相互作用、基本元素來描述。其實這些概念對我們搞計算機視覺的人來說一點也不陌生。我們的模型與物理模型是完全相通的,當你有一個概率分佈,你就有了“勢能函式”,就有了各種“相互作用”, 然後就有了各種“場”與“力”。這些問題放在以前是沒有資料來做研究的,就像愛因斯坦講的“…不過是一個大膽的奢望,一個哲學學派成問題的理想而已”。而現在可以了,我前面已經給出了一些例子:
砸核桃、坐椅子、疊衣服。我們可以從資料中推算各種相互作用的力,用於解釋人的各種行為。最近,我有兩個學生謝丹和舒天民就用“社會的力和場”來解釋人的相互作用, 舒還拿了2017年國際認知學會的一個“計算建模獎”。 我們以後會寫文章介紹這方面的工作。智慧科學的複雜之處在於:

(1)物理學面對的是一個客觀的世界,當這個客觀世界對映到每個人腦中, 形成一個主觀與客觀融合的世界,也就是每個人腦中的模型(這是統計中貝葉斯學派觀點)。這個模型又被對映到別人腦袋之中。每個腦Mind裡面包含了上百個他人的模型的估計。 由這些模型來驅動人的運動、行為。

(2)物理學可以把各種現象隔離出來研究,而我們一張影象就包含大量的模式, 人的一個簡單動作後面包含了很複雜的心理活動,很難隔離開。況且,當前以大資料集為依據的“深度學習”學派、“刷榜派”非常流行,你要把一個小問題單獨拿出來研究,那在他們複雜資料集裡面是討不到什麼便宜的。文章送到他們手上,他們就“強烈拒絕”,要求你到他們資料集上跑結果。這批人缺乏科學的思維和素養。嗚呼哀哉!回到前面烏鴉的例子,我在第四節討論到,我們研究的物理與生物系統有兩個基本前提:

一、智慧物種與生俱來的任務與價值鏈條。這是生物進化的“剛需”,動物的行為都是被各種任務驅動的,任務由價值函式決定,而後者是進化論中的phenotype landscape,通俗地說就是進化的適者生存。達爾文進化論中提出來進化這個概念,但沒有給出數學描述。後來大家發現,基因突變其實就是物種在這個進化的、大時間尺度上的價值函式中的行動action。我前面那個疊衣服的價值函式地形圖,就是從生物學借來的。

二、物理環境客觀的現實與因果鏈條。這就是自然尺度下的物理世界與因果鏈條,也就是牛頓力學的東西。

說到底,人工智慧要變成智慧科學,它本質上必將是達爾文與牛頓這兩個理論體系的統一。

2016年我到牛津大學開專案合作會,順便參觀了倫敦的Westminster Abbey 大教堂。 讓我驚訝的是:牛頓(1642-1727)與達爾文(1809-1882)兩人的墓穴相距也就2-3米遠。站在那個地點,我當時十分感慨。 這兩個人可以說是徹底改變人類世界觀的、最偉大的科學巨人,但是他們偉大的理論體系和思想的統一,還要等多久呢?這篇長文的成稿正好是深秋,讓我想起唐代詩人劉禹錫的《秋詞》,很能說明科研的一種境界,與大家共賞: 

“自古逢秋悲寂寥,我言秋日勝春朝。 
晴空一鶴排雲上,便引詩情到碧霄。”

附錄

中科院自動化研究所舉辦的《人工智慧前沿講習班—人機互動》報告的互動記錄(修改整理版)。

時間:2017年9月24日上午

主持人: 王蘊紅教授介紹辭(多謝溢美之詞,在此省略)。

朱 開場白: 
感謝譚鐵牛老師多次關照和王蘊紅老師的盛情邀請。今天是星期天,非常不好意思,耽誤大家休息時間。我知道大家平時都很忙,你們堅持聽到最後一講,非常不容易。所以,我給你們帶來一點乾貨,作為“精神補償”。

今天的講座是個命題作文,王老師要我談人機互動。到底什麼是人機互動,它要解決哪些問題?我就花了一週時間整理了一個比較長的講座,給大家介紹人工智慧的發展,和人機互動的體系結構。這個問題非常大,而且研究工作剛剛起步,大家需要把很多問題放在一起看、才能看出大致的輪廓。我給大家提一個思路,啟發大家思考,我並不想直接給出一個解答方法。那樣的話就剝奪了你們思考的空間和權利。

2017年初我在《視覺求索》發表過一篇談“學術人生”的文章,講到做學問的一個理想境界就是“清風明月”,也就是夜深人靜的時候,你去科學前沿探索真理。今天的講座,希望把大家帶到這麼一個空曠的地方,去領略一番。

報告後的提問互動:

提問一:朱老師,機器怎麼通過學習讓它產生自我意識。剛才您演示的那個機器人,門口有個人他要進來,Ta怎麼知道自己後退把路給讓出來?

朱:自我意識這個問題非常重要。我先簡要介紹一下背景,再回答你的問題。

自我意識(self-awareness,consciousness)在心理學領域爭議很大,以至於認知學會一度不鼓勵大家去談這個問題,這個方向的人多年拿不到研究經費。人工智慧裡面有少數人在談,但是,還不落地。自我意識包括幾點:

(1)感知體驗。我們花錢去看電影、坐過山車、旅遊,其實買的就是一種體驗。這種體驗是一種比較低層次的自我意識,形成一種表達(可以是我上面講到的解譯圖)。 事後你也可以回味。

(2)運動體驗。我們雖然有鏡子,可是除了舞蹈人員,大家並沒有看到自己的行為動作。但是, 我們對自己的體態和動作是有認知的。我們時刻知道我們的體態和三維動作。比如,心理學實驗,把你和一群人(熟悉和不熟悉的都有)的動作步態用幾個關節點做運動捕捉,記錄下來,然後,就把這些點放給你看,你只看到點的運動,看不到其它資訊。你認出哪個人是你自己的比率高於認出別人,而且對視角不那麼敏感。所以,我們通過感知和運動在共同建立一個自我的三維模型。這兩者是互通的,往往得益於映象神經元(mirror
neurons)。這是內部表達的一個關鍵轉換機制。機器人在這方面就比較容易實現,它有自己的三維模型,關節有感測器,又有Visualodometry, 可隨時更新自己在場景中的三維位置和形態。這一點不難。

(3)自知之明。中國有個俗語叫做“人貴有自知之明”。換句話說,一般人很難有自知之明。對自己能力的認識,不要手高眼低、或者眼高手低。而且這種認識是要隨時更新的。比如,喝酒後不能開車,燈光暗的時候我的物體識別能力就不那麼強,就是你對自己能力變化有一個判斷。我們每天能力可能都不一樣其實,這個相當複雜了。比如,機器人進到日本福島救災場景,核輻射隨時就在損害機器人的各種能力。突然,哪一條線路不通了,一個關節運動受限了,一塊記憶體被破壞了。它必須自己知道,而後重新調整自己的任務規劃。目前人工智慧要做到這一點,非常難。剛才說的人進來、機器人知道往後退,那就是一個協調動作的規劃。你規劃動作、首先要知道對方是什麼動作。比如,人與人握手就其實是非常複雜的互動過程。為了達成這個目標,你要在腦內做模擬simulate。

提問二:謝謝朱教授,感覺今天聽到的都是我以前從來沒有聽過的東西。我有一個問題就是像機器人這種自我認識都很難,像您說的互動他還要去理解對方那個人的想法,這種資訊他怎麼來獲取呢?也是通過學習還是?

朱:靠觀察與實踐。你看別人做事你就觀察到,你就能夠學到每個人都不一樣的價值函式,你就瞭解到你周圍的同事,比如你們共享一個辦公室,或者觀察你家庭裡面的人,你跟他生活的時間越長,你就越來越多的知道他怎麼想問題、怎麼做事,然後你跟他在互動的過程中越來越默契了。除了觀察,還有實踐,就是去試探、考驗對方。夫妻之間,剛結婚會吵架,之後越吵越少了、和諧了,價值觀融合大致收斂了、或者能夠互相容忍了。實在無法收斂,那就分道揚鑣,到民政局辦手續。這兩種情況都是我說的“學習的停機問題”。大家之間不要再相互交流、學習了,要麼心領神會、心照不宣;要麼充耳不聞、形同陌路。

提問三:他也是通過他自己觀察到,它裡面建立一個圖嗎?一個解譯圖(parse graph)嗎?

朱:在我看來是這樣的。就是我必須把你腦袋裡面的很多結構儘量重構出來,表達層面就是解譯圖,至於人腦如何在神經元層面儲存這個解譯圖,我們不清楚。人腦肯定有類似的表達,我腦袋裡面有你的表達後,我就可以裝或者演你的對各種情況的反應。文學作家創作的時候,他腦袋裡面同時要裝下幾十、上百號人的模型和知識表達,那些人知道什麼、什麼時候知道的。讀文科的人一般觀察比較敏銳。表演藝術家在這方面能力肯定也特別強。

提問四:像我們剛接觸機器學習,你有沒有什麼推薦的,因為現在大家都在追蹤訓練深度網路,有沒有一個推薦的,就是概率模型還是什麼東西,一個數學理論或者一個數學工具。

朱:我的想法是這樣的,首先讓大家端正思想,就是你想學,探索真理和未知。就是說在夜深人靜的時候你探索真理,等你心境沉靜下來,你自然就看到一些別人忽略的東西。不要讓我推薦某個工具、程式碼、祕籍,拿來就用。我今天講的東西都不是來源於某一個理論、工具,是融會貫通後的結果。

我反覆告誡學生們,做科學研究不是過去那種到北京天橋看把戲,哪裡熱鬧就往哪裡鑽。我以前也談到過一個“路燈的隱喻”,科學研究就像在一個漆黑的夜晚找鑰匙,大家喜歡聚在路燈底下找,但是很可能鑰匙不在那個燈底下。

提問五:朱老師好,非常慶幸來聽這個報告,我最後一個問題很簡單。您說那幾個時期,我想問一下秦朝到底什麼時候能到?到秦朝的時候,數學的哪一塊你認為,可能會被用做秦朝的武器或者最厲害的那個武器是什麼。

朱:問得很好。什麼時候會達到統一?這個事情中國有兩個說法,都有道理。

一種說法叫做“望山跑死馬”。你遠遠望見前面那個山快到了,你策馬前行,可是馬跑死都到不了,中間可能還有幾條河攔住去路。那是我們對這個事情估計不足。

第二個說法是“遠在天邊,近在眼前”。 能不能到達,決定於你這邊的人的智慧和行動。什麼時候統一、誰來統一,這決定於我們自己努力了。春秋和戰國時期,思想家是最多的,諸子百家全部都出來了,那是一個思想激烈碰撞的時代。我今天講的這些東西其實都在我腦袋裡面激烈的碰撞,我還有些問題想不通。

我們現在談這個事情和框架,你覺得世界上有多少人在做?我的觀察是:極少,也許一隻手就可以數得過來。

你的第二個問題,如果要統一,那最厲害的數學工具是什麼?我們要建立統一的知識表達:概率和邏輯要融合,和深度學習也要融合。我們看看物理學是如何統一的,他們裡面各種模型(四大類的力與相互作用)必須融洽,然後解釋各種現象。簡單說我們需要搞清楚兩點:

一、什麼地方用什麼模型? 對比經典力學、電磁學、光學、統計物理、粒子物理等都有自己的現象、規律和使用範圍。我們這邊也類似,各種模型有它們的範圍和基礎,比如我們常常聽說的,吉布斯模型往往就在高熵區,稀疏模型在低熵區,與或圖語法用在中熵區。這一塊除了我的實驗室,世界上沒有其他人研究。

二、這些模型之間如何轉化? 前面我講了一個例子,我寫了一篇關於隱式(馬爾科夫場)與顯式(稀疏)模型的統一與過渡的資訊尺度的論文,投到CVPR會議,結果,三個評分是“(5)強烈拒絕;(5)強烈拒絕;(4)拒絕”。大家根本就沒想這個問題,眼睛都巴巴地看著資料集、效能提升了多少。刷榜成了CVPR科研的重要正規化。在某些人眼中,刷榜成了唯一方式。我以前是批判這個風氣,後來一想,其實應該多鼓勵。我對那些把大眾帶到溝裡去的學術領軍人物,以前是批評,現在我特別感激Ta們。這樣我自己的學生才有更多時間去實現我們的思路。你們都一起湧過來踩踏、亂開亂挖,我都躲不開。我做研究喜歡清靜,不去趕熱鬧,不去追求文章引用率這些指標。

王蘊紅教授總結(整理):今天朱教授的報告,大家可以感覺到兩點。

一、縱橫捭闔、舉重若輕。縱論、橫論整個人工智慧六大領域很多深刻的題目,在很多層面上縱橫交叉的線,他理得非常清楚、舉重若輕,收發自如。非常幸運能聽到這樣的報告。

二、授人以漁而不是魚。他講的是如何去思考問題,如何去看世界,如何研究一些真正本質的東西。近幾年深度學習被過多強調之後,有很多博士生還有一些研究者過於依賴工具,思考的能力被損壞了。其實研究的世界那麼大,你一定要擡起頭來看看,仰望星空。

鳴謝

感謝微軟研究院郭百寧、華剛、代季峰等博士2016年9月在北京組織的研討會。2017年6月湯曉鷗、王曉剛、林倞等教授邀請我在香港中文大學所作的報告。沈向洋博士在2017年7月西雅圖組織的碧慧論壇。2017年9月在譚鐵牛教授關照下、王蘊紅教授在中科院自動化所舉辦的人工智慧人機互動講習班、並指派速記員和北航博士生劉松濤同學整理出報告的中文初稿。假若沒有他們的耐心、催促、鼓勵和協助,這篇中文報告是不可能產生的。報告中的部分圖片由[email protected]實驗室朱毅鑫、魏平、舒天民等人協助整理。

感謝中科大阮耀鍾教授、楊志巨集同學幫我找到那本珍藏的《力學概論》電子掃描版。其緒論被摘錄在文中。我的思想受到這本書的啟蒙。

感謝《視覺求索》公眾號編輯部周少華、華剛、吳郢、羅傑波等同仁的協助。

感謝美國多家機構對文中提及研究的長期支援。

宣告:本文限於純屬學術觀點的爭鳴,不針對任何組織和個人,切勿對號入座。本文僅代表個人觀點、不代表機構立場。

全文完