NO IMAGE

最近,基於視覺深度Q的學習在雅達利和視覺Doom AI平臺被證明成功的結果。與以前的研究不同,格鬥遊戲假設兩個玩家有相當多的動作,在這項研究中,採用深度Q網路(DQN)用於視覺格鬥遊戲AI的比賽。動作次數減少到11,並利用視覺格鬥平臺測試了幾個控制引數的靈敏度。實驗結果表明,對於雙人實時格鬥遊戲的DQN方法有著很大的潛力!

格鬥遊戲是一種國際人工智慧競賽平臺,具有兩個代理之間的匹配。在比賽中,蒙特卡洛樹搜尋(MCTS)技術是排名在前面的幾種方法。近年來,基於視覺的實時遊戲AI的數量有所增加,有可能採用基於視覺的方法在格鬥遊戲的競爭領域擊敗MCTS方法的情況。

特別是,採用深度Q學習網路(DQN)成功地展示了在雅達利遊戲和視覺Doom AI的比賽。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

在格鬥遊戲平臺,為每一個角色一共定義了41個動作,為不同的狀態定義了幾種操作(比如在地上,空中,蹲著等),由於訓練的動作數量相對較多,這很有挑戰性,最後建議只考慮11個動作。

網路架構:

0?wx_fmt=png

輸入為4通道,分別為連續視訊幀,兩個卷積層和兩個全連線層。

引數設定:

  • 輸入為960*640畫素的,然後重新變換到96*64大小尺寸;

  • 一個動作用4幀去產生,採用跳幀技術,加快動作額學習

  • 動作有上、下、右、用拳猛擊、踢和六個組合鍵:

    – ‘Down’ ‘Down & Right’ ‘Right & Punch’
    – ‘Down’ ‘Down & Right’ ‘Right & Kick’
    – ‘Right’ Down’ ‘Right & Down & Punch’
    – ‘Right’ ‘Down’ ‘Right & Down & Kick’
    – ‘Down’ ‘Left & Down’ ‘Left & Punch’
    – ‘Down’ ‘Left & Down’ ‘Left & Kick’

  • minibatch設定為32,replay memory設定為50000,學習率為10e-6。

學習過程:

0?wx_fmt=png

其他設定:

0?wx_fmt=png

輸入資料尺寸 

0?wx_fmt=png

跳幀技術

0?wx_fmt=png

行為數量

實驗結果:

從上圖可以看出,高解析度的輸入效果比低分辨了的好;

在跳幀技術,用較大的跳幀引數值可以增加效能;

小尺寸的行為可以額很好的提高效能。

最後給大家展示一些效果:

0?wx_fmt=jpeg

0?wx_fmt=jpeg

0?wx_fmt=jpeg

0?wx_fmt=jpeg