20個令人驚歎的深度學習應用

NO IMAGE

唐旭 發自 RUC
量子位 報道 | 公眾號 QbitAI

從計算機視覺到自然語言處理,在過去的幾年裡,深度學習技術被應用到了數以百計的實際問題中。諸多案例也已經證明,深度學習能讓工作比之前做得更好。

今天,量子位為大家收集了20個深度學習方面的優秀應用——當然,這份榜單可能並不詳盡,但相信看過之後,你對這項技術在某些領域的潛力會有更清晰的認識。

針對每個應用,我們還儘量收集了相關的Demo、Paper和Code等資訊。

1、Face2Face:扮演特朗普

斯坦福大學的一個小組做了一款名為Face2Face的應用,這套系統能夠利用人臉捕捉,讓你在視訊裡實時扮演另一個人,簡單來講,就是可以把你的面部表情實時移植到視訊里正在發表演講的美國總統身上。

同樣的原理也可以用於對視訊裡場景的3D重建、電影特效也可以這麼幹。

這個應用的實際效果是這樣的:

Paper:

http://www.graphics.stanford.edu/~niessner/papers/2016/1facetoface/thies2016face.pdf

2、Let there be color!:給黑白照片/視訊自動上色

左圖是拍攝於1937年的一幅礦工的照片,右圖是用Let there be color!重新自動上色後的效果。

上圖是拍攝於1909年的一張保齡球館的照片,下圖是用Let there be color!重新上色後的效果。

實際上,這是運用深度學習網路學習自然存在於照片中的某些模式——比如,天通常是藍的,雲是白的或者灰的,草是綠的。通過這類規則,Let
there be color!不需要人類的介入就能對照片進行重新上色。雖然有時它也會犯錯,但這種錯誤很難被發現。

同樣地,Let there be color!也可以把黑白視訊變成彩色的。

Demo:

Automatic
Image Colorization・白黒畫像の自動色付け

Paper:

http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/data/colorization_sig2016.pdf

Code:

satoshiiizuka/siggraph2016_colorization

3、Pixel Recursive Super Resolution:告別馬賽克

我為什麼不看美劇CSI?原因很簡單:太假了。裡面的主角動不動就把一段視訊拉近、放大——然後他們就得到了一幅解析度遠超真實情況的影像。這根本不現實……

直到深度學習出現。今年早些時候,谷歌大腦的研究者們訓練了一個深度學習網路,他們讓後者根據一些解析度極低的人臉影象來預測這些面孔真實的樣子。如下圖:

最左邊是輸入的8×8畫素的原始影像,最右一列是被拍攝的人臉在照片中的真實效果,中間則是電腦的猜測。

可以看到,雖然並不完美,但電腦預估出的結果已經與實際情況十分接近。Google的研究者將這種方法命名為 Pixel Recursive Super Resolution(畫素遞迴超解析度),用這種方法能顯著提升影象的質量。

Paper:

[1702.00783]
Pixel Recursive Super Resolution

4、實時多人動作預估

深度學習網路已經能在預估動作方面幫動畫師很大的忙,如今,我們甚至能做到實時預估。康奈爾大學Zhe Cao等人教會了一個神經網路估算人類骨架位置的變化。

在如下的gif中,你可以看到一群人在街頭跳舞,而通過這種神經網路,我們能知道他們在哪、如何做動作。

視訊封面
深度學習實時預估多人動作_騰訊視訊
視訊

Paper:

https://arxiv.org/abs/1611.08050

5、Neural Talk:描述照片

用電腦來對照片進行自動分類已經很常見了。比如,Facebook能在分享的照片裡標記出你的好友,Google可以為你的照片打上標籤以便更有效率地進行搜尋。

而如今,深度學習已經可以對照片中的各種元素進行描述。在Andrej Karpathy和李飛飛所做的一項工作中,他們訓練了一個能對照片中不同區域內元素進行識別,並用一句話來描述照片的深度學習系統。

Demo:

Image
Annotation Viewer

Paper:

http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Karpathy_Deep_Visual-Semantic_Alignments_2015_CVPR_paper.pdf

6、DeepWarp:你瞅啥?再瞅把你做成表情包!

這個應用有點惡搞的意思。現在,不管你手裡拿到了誰的照片,用Ganin等人開發的這個深度學習網路過一下,你就可以讓他的眼睛動起來:你可以讓他上下看、左右看,甚至繞著圈看……好吧,除了生產表情包,其實也不知道它還能幹什麼用……

這是一些例子,裡面有伊麗莎白女王、奧巴馬、莎拉波娃……等等:

DeepWarp
Project Page

Demo:

DeepWarp
Demo Page

Paper:

http://sites.skoltech.ru/compvision/projects/deepwarp/files/deepwarp_eccv2016.pdf

7、生成新照片

來自懷俄明州立大學的Anh Nguyen以及其他幾位研究者開發了一套能用迭代的方式從已有照片中合成全新照片的深度學習網路。以下是一些電腦合成的樣片,結果令人驚豔:

Paper:

https://arxiv.org/pdf/1612.00005.pdf

8、用卷積神經網路來拯救鯨魚

眾所周知,卷積神經網路在影象識別分類領域有著非常好的前景。利用深度學習,我們可以將抓拍到的珍稀動物(比如鯨魚)照片進行分類,從而更好地估算某種動物的存活數量。

其他的例子包括浮游生物、植物等等。

分類浮游生物的介紹:

Classifying
plankton with deep neural networks

Code:

benanne/kaggle-ndsb

9、Pix2Pix:靈魂畫師

這個點子與之前提到的Let there be color!有點類似,不過要更有創造力一點。你可以往電腦中輸入一幅簡筆畫,甚至一些色塊,然後讓電腦發揮自己的創造力輸出新的圖片。類似地,你也可以把衣服航拍照片變成一幅地圖,將白天的場景變成夜晚。

前段時間特別火的信手畫貓(傳送門:人工智慧拯救渣畫手,我分分鐘畫只貓給你看),也是基於這個技術。

Paper:

https://arxiv.org/pdf/1611.07004v1.pdf

Code:

phillipi/pix2pix

10、Reading text in the Wild:用圖片找文字

牛津視覺幾何小組運用深度學習技術開發了一項應用,它可以讀出視訊中的文字,輸入文字,就可以直接搜出影象中包含這些文字的BBC新聞視訊。比如,這是對“London”的一部分搜尋結果:

Demo:

Visual
Geometry Group Home Page

Paper:

[1412.1842]
Reading Text in the Wild with Convolutional Neural Networks

11、Google Sunroof:看你家房頂能收到多少太陽能

Google Sunroof首先會根據Google地球的航拍地圖為你家的屋頂建立一個3D模型,然後再用深度學習將屋頂和周圍的數目區分開,接著根據太陽執行軌跡以及天氣狀況,就可以估算出安裝了太陽能電池板的房頂能收集到多少太陽能。

專案首頁:

https://www.google.com/get/sunroof#p=0

12、AI制霸打磚塊

Google的Deepmind團隊用深度強化技術教會了AI玩《打磚塊》(Breakout,基本大家都玩過,具體是什麼請看下圖)。

測試過程中,電腦並沒有依據任何遊戲規則被進行特殊的編成,他們只是將鍵盤的控制權交給AI,然後對它進行不斷地訓練。起初,AI玩得十分糟糕;但經過兩個小時的訓練之後,畫風就變成了這個樣子的:

Paper:

https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf

Code:

https://sites.google.com/a/deepmind.com/dqn/

13、制霸全場~

打磚塊還不夠?深度學習技術還被用來在更多遊戲領域訓練AI,包括:《小蜜蜂》、《毀滅公爵》、《乒乓》等幾十種遊戲。在大多數的遊戲裡,深度學習網路已經玩的比有經驗的玩家更好,同樣所有的玩法都是AI自己摸索的。

Paper:

http://www.davidqiu.com:8888/research/nature14236.pdf

14、LipNet:讓AI讀脣語

視訊封面
AI識別脣語_騰訊視訊
視訊

來自牛津大學和Deepmind的科學家共同完成了這一專案。LipNet在讀脣的準確率方面達到了驚人93%,遠超人類讀脣者52%的平均水平。

Paper:

https://arxiv.org/pdf/1611.01599.pdf

Code:

bshillingford/LipNet

15、真·靈魂畫師

如今,運用深度學習技術,可以讓AI對某一幅畫的風格、色彩、明暗等元素進行學習,然後將這幅畫上的風格移植到另一幅上,而且效果非常不錯。

這麼說可能不夠直觀,來看幾個例子:

下面從左到右,依次是畢加索、梵·高和莫奈風格的蒙娜麗莎。

而這是某位老哥用AI創作的谷歌地圖風格的蒙娜麗莎……

Demo:

https://deepart.io/

Paper:

http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Gatys_Image_Style_Transfer_CVPR_2016_paper.pdf

16、AI寫字

現在電腦不光能用來打字,還能用來寫字了:多倫多大學的Alex Graves教會了電腦用多種不同的風格來書寫。

Demo:

http://www.cs.toronto.edu/~graves/handwriting.html

Paper:

[1308.0850]
Generating Sequences With Recurrent Neural Networks

17、深度學習預測城市熱人口和選舉結果

Gebru等人收集了5000萬張Google街景照片,然後用深度學習技術加以挖掘看看能發現什麼。結果,深度學習不僅識別出了2200萬輛汽車的材質、車型、年份等,還從中發現了一些關聯,比如可以通過對車型的識別來分析某片區域的人口狀況。

更有趣的是,AI發現,如果在一段15分鐘長的駕駛路程上遇到的轎車比皮卡更多,那麼這個城市在下屆的總統選舉中有88%的機率將選票投給民主黨;否則,則有82%的機率投給共和黨。

Paper:

https://arxiv.org/pdf/1702.06683.pdf

18、Deep Dreaming:AI也會白日做夢

視訊封面
Deep Dream_騰訊視訊
視訊

2015年,Google的研究者找到了一種用深度學習來增強影象特徵的方法,隨後,他們就開發了Deep Dreaming——它能夠在圖片中生成一些不可思議的幻象。因為有些和夢境十分相似,因此取名Deep Dreaming。具體生成什麼樣的幻想與這個深度學習系統最近被暴露在什麼樣的環境下有關,有時它甚至能生成嚇人的噩夢。

專案首頁:

https://research.googleblog.com/2015/06/inceptionism-going-deeper-into-neural.html

影集:

Google
Deep Dream: 19 of the best images from mesmerising photo software

Code:

google/deepdream

19、反覆攻破和修補自己的防火牆

Google大腦的研究團隊建立了兩個深度學習網路用於安全工具開發,他們讓其中一個不斷創造自己的加密演算法,然後讓另一個網路去盡力攻破它。在兩套系統的反覆纏鬥後,第一個系統已經能生成非常優秀的安全加密演算法。

然而,第二套演算法也總是表現得比它更好……

Paper:

https://arxiv.org/pdf/1610.06918v1.pdf

20、預測地震

哈佛的科學家們運用深度學習技術讓電腦學會“粘彈性計算”——一種被用於預測地震的計算方法。結果,計算的效果在AI上大大被增強了。

然而,計算機同時將計算速度提高了50000%。在地震中,時間就是生命。因此,目前用AI來預測地震還為時尚早。

Paper:

https://arxiv.org/pdf/1701.08884v1.pdf

好啦,先介紹到這裡。如果漏掉了“好厲害!”的深度學習應用,歡迎留言補充~

One More Thing…

我們的公眾號也叫量子位(QbitAI),關注並回復“今天”,看更多AI領域大新聞。

另外,歡迎加量子位小助手的微信:qbitbot,如果你研究或者從事AI領域,小助手會把你帶入量子位的交流群裡。

轉載自 https://zhuanlan.zhihu.com/p/26392608?utm_source=qzone