科學匠人 | 韋福如:做研究,痛並快樂著

NO IMAGE
1 Star2 Stars3 Stars4 Stars5 Stars 給文章打分!
Loading...

640?wxfrom=5&wx_lazy=1

編者按:不久前,在斯坦福大學發起的SQuAD文字理解挑戰賽中,微軟亞洲研究院自然語言計算組於1月3日提交的R-NET模型在EM值上以82.650的最高分佔據榜首,首次超越人類成績82.304。主導SQuAD挑戰賽中機器閱讀理解研究的正是已加入微軟亞洲研究院8年的韋福如,憑藉其在自然語言研究領域的突出貢獻,他近期也入選了《麻省理工科技評論》中國區35歲以下科技創新35人榜單。在本期“科學匠人”中,韋福如向我們講述了他在研究道路上的快樂和痛苦,並向更多立志於科研的年輕人提出了自己的誠摯建議。

也許離真正取代人類勞動力還有很長的距離,但毫無疑問的是,人工智慧已經進入了一個“野蠻生長”的階段。剛剛跨入2018年的人類再次被超越——這一次,是閱讀理解。

在斯坦福大學發起的SQuAD(Stanford Question Answering Dataset)文字理解挑戰賽中,微軟亞洲研究院自然語言計算組於1月3日提交的R-NET模型在EM值(Exact Match, 表示預測答案和真實答案完全匹配)上以82.650的最高分佔據榜首,首次超越人類成績82.304。一時間,“AI在閱讀理解上打敗人類”的媒體報道鋪天蓋地,挑動著大眾的神經。

SQuAD機器閱讀理解挑戰賽,因其能夠提供規模龐大的資料集及檢測機器學習模型處理大量資訊並回答閱讀理解問題的機制,被認為是當前世界上檢測機器閱讀水平最權威的測試之一,享有“機器閱讀理解界ImageNet”的美譽。微軟亞洲研究院自然語言計算組自2016年9月開始參加SQuAD比賽,幾乎持續領先,超越了包括艾倫研究院、IBM、Salesforce、Facebook、谷歌以及卡內基•梅隆大學、斯坦福大學等在內的強大競爭對手。

主導SQuAD挑戰賽中機器閱讀理解研究的,是已加入微軟亞洲研究院8年的韋福如。也正因為在自然語言處理領域所取得的科研成就,韋福如近期入選了“MIT Technology Review Innovators Under 35”(MIT TR IU 35,《麻省理工科技評論》中國區35歲以下科技創新35人)榜單

640?wx_fmt=jpeg

韋福如(中間)在EmTech China全球新興科技峰會上領取“《麻省理工科技評論》中國區35歲以下科技創新35人”獎項

640.png?

SQuAD“第一”有壓力,因為不知道對手在哪裡

其實,在2016年7月SQuAD資料集剛剛釋出的時候,韋福如就認為機器閱讀理解會成為自然語言處理領域重要的研究課題,並且該技術的突破在微軟的眾多產品線中有著廣泛的應用場景。SQuAD既提供了大規模的高質量標註的資料集,為基於深度學習的演算法和模型提供資料,其本身也是一種類似ImageNet的挑戰賽——測試資料集對參與者不公開,需要把系統提交給主辦方執行得到測試集的結果。參加這樣的比賽可以在參賽過程中打磨演算法和提升研究水平。那時,對於比賽的預期,主辦方和參賽方其實心裡都沒底,大家的目標就是不斷精進演算法,重新整理成績。剛開始,計算機做到68分的時候,大家就覺得這個結果不錯了,如果能再做到70就很好了。但後來,隨著模型的不斷優化,分數不斷提升,2018年1月3日提交的系統最終實現了82.650分的突破。

在2017年第三季度時,比賽狀態很是膠著,參賽團隊的榜單排名互動向前。此時,作為最早一批且保持領先的參賽者,微軟亞洲研究院團隊以及其他的研究團隊已經陸續將取得的成果發表了論文,使得更多參賽團隊可以借鑑、提升各自的系統,從而後來居上。對於韋福如和團隊來說,被超越的壓力就是動力。他們著重從三個角度不斷提升系統:首先是對神經網路結構的優化,這是最核心的因素,通過大量調整和試驗,每次都讓機器學習的效果做到最佳;其次,加入更多背景知識和先驗知識,包括通過在大規模文字資料上通過雙向的迴圈神經網路訓練的語言模型得到的上下文相關的詞向量等,提升神經網路的表達能力和效果;最後,在系統實現層面不斷創新,例如神經網路的訓練過程,優化方向等。

就這樣,韋福如帶領著團隊在SQuAD挑戰賽中一路領先。儘管大部分時候微軟亞洲研究院的成績都位居榜首,但韋福如表示,“比賽做到第一其實壓力會比較大,因為其他團隊可以看到第一名在哪裡,他們只要瞄準第一名就好。而我們不知道對手在哪裡,我們只有不斷地創新,超越自己以往的成績。”不過這也正是做研究有意思、也很痛苦的地方。

有意思是因為研究總在做不一樣的事情、好玩的事情,而痛苦則在於,科研永遠都在試錯,要不斷地否定自己。可能有些人並不喜歡這種感覺,好像總是在跟自己較勁。不過我喜歡,可能這也是為什麼我選擇了做研究。”韋福如就這樣痛並快樂著地享受做研究的樂趣,在“漆黑”中探索未知。自從參賽以來,韋福如和團隊每天都會進行討論,每一兩個星期就要有針對性地做些新的嘗試,實現小的突破,而大突破就是這樣日積月累,從量變到質變的結果。

640?wx_fmt=jpeg

微軟亞洲研究院機器閱讀團隊

640.png?

不是研究院,我也許就不做研究了”

看一下韋福如的簡歷,你就會知道他為什麼能入選MIT TR IU 35榜單:在自然語言處理領域國際頂級會議和期刊(如Computational Linguistics, ACL, EMNLP, COLING, SIGIR, AAAI, IJCAI等)上發表論文90餘篇,論文被引用超過3500次,H-index為30。不過他卻說,“如果不是微軟亞洲研究院,我也許就不做研究了。”

很難想象這樣一個學霸會差點跟研究擦身而過。韋福如17歲考入武漢大學計算機學院,之後保送碩博連讀。讀碩士期間就曾在微軟亞洲研究院實習了8個月,而就在準備讀博的時候他有些猶豫,傾向於開始工作,畢竟網際網路產業的快速發展讓人眼熱。

不過在微軟亞洲研究院的實習經歷卻讓他對研究有了新的思考。研究院的環境讓韋福如感受到了做研究的自由、開放,每位研究員在這裡都有自己的定位與領域,他們的深厚積累以及給年輕人潤物細無聲的諄諄教導,讓韋福如印象深刻,他覺得這就是自己想象中做研究的樣子。所以他毅然開始了博士之旅,2009年博士畢業後在IBM中國研究的短暫停留之後,於2010年加入了微軟亞洲研究院自然語言計算組。

每次說起研究院來都會提到“沒有KPI”這件事,很多人對此都非常向往,如此自由的一個地方,可以隨意放飛自我啊。不過在韋福如眼裡,“沒有KPI才最可怕,因為沒有KPI恰恰是最難達成的KPI。”沒有具體量化的目標,意味著研究員需要自己去發現問題、定義問題和解決問題,其實這個難度早已超越完成任務,需要上升到另一個層面。

韋福如2010年加入研究院首先從事的是社交媒體上文字挖掘與情感分析的研究,可以更好地實現計算機對社交媒體上使用者情感變化的預測,在網路評論中監測人們對產品、品牌等的態度和意見,以及在聊天機器人和人類的對話互動中建立類似人與人之間的關係。目前,他在情感分析領域的研究成果已被廣泛應用到搜尋引擎必應(Bing)、微軟認知服務的文字分析API以及智慧聊天機器人(例如微軟小冰)等微軟的應用和服務當中。他研發的情感分析引擎被用於從社交媒體(例如Twitter)中生成社會情緒訊號,而這給必應預測人們對電視節目(例如The Voice美國好聲音、American Idol美國偶像)以及社會事件的結果提供了關鍵的特徵資訊。

2011年IBM Watson贏得Jeopardy!答題秀,自然語言計算組將目光投向了智慧問答的相關研究。很快韋福如就負責啟動了基於網際網路的問答引擎研究,以微軟必應(Bing)的搜尋結果為基礎做開放域的問答系統,並隨著其他同事的加入擴充套件到基於知識庫的問答引擎和基於社群問答的問答引擎,最終開發出名為Light的開放領域問答系統。Light系統與這次參與SQuAD挑戰賽的系統有相似之處,但在2012年,神經網路還沒有興起,Light可謂相當前瞻。而Light問答系統中的很多技術也通過和微軟必應搜尋團隊的合作轉化到必應搜尋引擎中,用以回答使用者在必應搜尋裡問題。

經過Light這個專案,韋福如對於沒有KPI有了更深刻的理解。做了一段時間的問答研究,幾年下來與產品部門合作,也發了一些論文,就像是老闆給了一個方向,趟出來了一條路,也算是基本實現了一些研究目標,但他總在想,接下來要做什麼?自己想要去做什麼?沒有KPI考核,在這個時候,便成為了巨大的壓力,如何發現問題、定義問題和解決問題,始終在韋福如腦海中盤旋。

640.png?

“專案跌宕起伏,還經常“捅破天”

恰逢“微軟小冰”在國內成功釋出,韋福如和團隊便開始探索研發針對美國市場的智慧聊天機器人,開發的原型系統在微軟技術節(TechFest)上展示並獲得非常好的反饋。於是來自微軟亞洲研究院、微軟總部雷德蒙研究院以及微軟必應搜尋團隊的成員開始了針對英文版聊天機器人Tay的合作,韋福如充滿熱情地加入其中,負責核心聊天引擎的開發。瞭解Tay的業界同仁可能知道它的短暫故事:在Twitter上遭遇到網友惡意攻擊,上線不到24小時便被迫緊急下線。儘管如此,微軟管理層對於Tay的研發團隊給予了極大的支援,團隊也從事件中學習到一款產品除了擁有領先的技術,還要考慮不同地域的文化因素,以及社會和倫理等方面的問題

韋福如笑稱,雖然專案過程有些曲折,甚至可以說是跌宕起伏,但回過頭來看也是個不錯的體驗,“在這個專案一年多的時間中,有了好幾次‘捅破天’的經歷,但是公司和領導都給予了足夠的肯定和支援,CEO Satya還專門為此給團隊發了郵件鼓勵。”而研究專案再一次“捅破天”,得到Satya的關注,便是開篇提到的SQuAD挑戰賽上的突破。

640?wx_fmt=jpeg

2016年開始,韋福如繼續思考,逐步將自己和團隊的工作內容聚焦在了三個方面:第一個是做基礎研究,參加SQuAD挑戰賽,從對這個領域的理解出發,他覺得這個方向很對,值得做,便著手參與;第二個是與產品部門合作,例如和Office等產品團隊在智慧問答和智慧回複相關領域的合作;第三個是創新孵化,例如將自然語言處理拓展到音樂創作領域,與微軟小冰合作,讓機器擁有可以作詞、作曲的音樂創作能力。這些工作看似比較零散,實際上背後在演算法或者是研究上有很強的關聯性,因此能相互促進提高。另外,這些不同型別的研究和應用創新,會形成很好的正迴圈——基礎研究和算法上的創新是向產品做技術轉化的基石,創新孵化又可以進一步拓寬基礎研究和產品合作的方向,產品合作中得到的實際使用場景和問題又會進一步激發新的研究靈感,孵化新的技術和場景

這三個方向與微軟亞洲研究院的三個使命也完全吻合:做最前沿的基礎研究,推動整個電腦科學領域的前沿技術發展;將最新研究成果快速轉化到微軟的關鍵產品中,以幫助消費者改善計算體驗;著眼於下一代革命性技術的研究,去做一些很有挑戰,甚至目前完全看不清方向的研究,實現對未來計算的美好構想。

640.png?

年輕人就應該來這裡!

韋福如很感謝微軟亞洲研究院給了自己做研究的啟蒙,在他看來,“不想給自己設限的年輕人,就應該來這裡!如果在研究院待五年,所收穫的將不僅僅是在某個技術領域的提升,而是從問題定義、方向尋找到做研究、演算法模型、寫論文、展示成果都可以獲得全方位的提升。不僅如此,微軟亞洲研究院還更進一步要求系統實現和產品合作,在這裡可以快速成為一個能夠獨當一面的科研人員和領域專家。”說到這裡,韋福如似乎又看到了當年作為實習生的自己,短短的8個月,研究院已然給自己種下了研究生涯的一顆種子,並早早為之後的故事,埋下了伏筆。

而對於年輕人該如何做好研究,韋福如給出了幾個建議:

首先是獨立。獨立思考,有能力從定義問題到實現落地,把握節奏,持之以恆。學校的學習對這一點的挖掘不夠充分,研究院的環境可以很好地進行彌補。在這裡各種氛圍都在激勵自己不斷學習,你可以看到業界大牛在做什麼,微軟在做什麼,從而逐步提高自己定義問題和獨立思考的能力。


其次是持續創新和成長心態(Growth Mind)。要能保持初心,以成長心態積極面對挫折和工作,持續創新。


最後是團隊合作。在微軟內部,研究院和產品部門的協作非常密切,合作的過程中要有清楚的定位。研究員的特長更多是基礎研究和核心技術的研發。研究需要能提前看到趨勢,拓展技術的邊界和應用的孵化,做出原型系統,和產品部門積極合作,產生更大的影響力。

你也許還想

●  從短句到長文,計算機如何學習閱讀理解

●  周明:中國NLP如何躋身世界頂尖水平?

●  書單 | NLP祕笈,從入門到進階

640.png?

感謝你關注“微軟研究院AI頭條”,我們期待你的留言和投稿,共建交流平臺。來稿請寄:[email protected]

640.jpeg?

程式語言 最新文章