Facebook開源看圖問答模型Pythia:拿下VQA比賽冠軍就靠它

NO IMAGE
夏乙 發自 凹非寺
量子位 報道 | 公眾號 QbitAI

640?wx_fmt=png

——貓戴著什麼?

——帽子。

640?wx_fmt=png

——天氣怎麼樣?

——下雨。

640?wx_fmt=png

——披薩上面是什麼?

——蘑菇。

看圖回答這些問題,對我們人類來說再簡單不過了,但是要讓AI熟練掌握這項技能,還需要探索。

Facebook剛剛為這個領域的探索者們,開源了一個模組化視覺問答框架:Pythia

事情還要從在弗吉尼亞理工大學和喬治亞理工大學主辦的視覺問答(Visual Question Ansering)比賽VQA Challenge說起。

640?wx_fmt=png

比賽上,Facebook AI研究院(FAIR)隊伍,A-STAR拿下了冠軍。總成績72.41分,排名第一,在是否(上圖的Yes/No)、其他(Other)兩類問題上也排名第一,分別拿下了87.7和63.95分,就是數學(Number)成績差了點,51.51分,不及格,排在第六。

其他的參賽者,回答“是/否”都答得還算不錯,回答數字都不及格,而答案五花八門的其他問題,也在及格線上下徘徊。

奪冠的FAIR觀察發現,目前的視覺問答(VQA)模型,無外乎這樣幾個模組:問題編碼、影象特徵提取、答案空間分類。

於是,他們就想針對VQA領域,打造一個簡單的模組化的模型研發平臺,說不定還能順便用在看圖對話上。

建造平臺的第一步,就是開源了A-STAR參賽所用模型的基礎框架:Pythia,目前版本號v0.1。

為Pythia打下基礎的,是2017年VQA Challenge冠軍,Peter Anderson等人提出的Bottom-Up and Top-Down Attention模型。

Bottom-Up,指的是這個模型以ResNet-101為基幹網路,用了Visual Genome資料集預訓練的Faster-RCNN,用自底向上的注意力機制來提取影象特徵。

而Top-Down,指的是根據問題(當前任務)來計算影象區域上的注意力分佈。

在這個模型的基礎上,FAIR團隊做了一些調整。

比如說,將up-down模型裡的雙曲正切啟用函式換成權重標準化 ReLU,用Adamax來優化模型,增大學習率。又比如,把bottom-up模型裡的目標檢測模型換成Detectron裡的FPN,還對用到的資料集:Visual Genome、Visual Dialog等都做了資料擴增。

640?wx_fmt=png

每一個模組的優化,都帶來了模型效能的提升。

BTW,Facebook參賽隊伍和框架的名字都別有深意。

隊伍的名字——A-STAR,跟星星沒什麼關係,它是意思是能看、說話、行動、推理的智慧體(Agents that See, Talk, Act, and Reason)

框架名字Pythia,也就是希臘神話中的皮提亞,德爾菲阿波羅神廟中的女祭司。女祭司的一項重要工作嘛,就是回答問題。

640?wx_fmt=jpeg

如果你也想搭一個會看圖回答問題的模型,收好這份paper:

Pythia v0.1: the Winning Entry to the VQA Challenge 2018
*Yu Jiang, Vivek Natarajan, Xinlei Chen, Marcus Rohrbach, Dhruv Batra, Devi Parikh
https://arxiv.org/pdf/1807.09956.pdf

以及開原始碼:

https://github.com/facebookresearch/pythia

為它打下基礎的Bottom-Up and Top-Down Attention:

https://github.com/hengyuan-hu/bottom-up-attention-vqa

加入社群

量子位AI社群18群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot8入群;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進群請加小助手微訊號qbitbot8,並務必備註相應群的關鍵詞~通過稽核後我們將邀請進群。(專業群稽核較嚴,敬請諒解)

實習生招聘

量子位正在招募活動運營實習生,策劃執行AI明星公司CEO、高管等參與的線上/線下活動,有機會與AI行業大牛直接交流。工作地點在北京中關村。簡歷歡迎投遞到[email protected]

具體細節,請在量子位公眾號(QbitAI)對話介面,回覆“實習生”三個字。

640?wx_fmt=jpeg

量子位 QbitAI · 頭條號簽約作者

վ’ᴗ’ ի 追蹤AI技術和產品新動態