Teaching Machines to Read and Comprehend

Teaching Machines to Read and Comprehend
1 Star2 Stars3 Stars4 Stars5 Stars 給文章打分!
Loading...

關鍵詞

real natural language traning data, nerual model

來源

arXiv 2015.06.10 (published at NIPS 2015)

問題

針對閱讀理解缺乏大規模訓練資料集,構建了相應的資料集。同時嘗試利用神經網路模型解決機器閱讀理解問題。


文章思路

文章中提出了三種神經網路模型,分別如下:

  1. Deep LSTM
    其實就是用一個兩層 LSTM 來 encode query||document 或者document||query,然後用得到的表示做後續工作。
    Deep LSTM

  2. Attentive Reader
    這一模型分別計算 document 和 query,然後通過一個額外的前饋網路把他們組合起來。
    document 部分利用雙向 LSTM 來 encode,每個 token 都是由前向後向的隱層狀態拼接而成,而 document 則是利用其中所有 token 的加權平均表示的,這裡的權重就是 attention,利用 query 部分就是將雙向 LSTM 的兩個方向的最終狀態拼接表示而來。
    最後利用 document 和 query 做後續工作。
    Attentive Reader

  3. Impatient Reader
    這一模型和 attentive reader 類似,但是每讀入一個 query token 就迭代計算一次 document 的權重分佈。
    Impatient Reader

最終的結果,在 CNN 語料中,第三種模型 Impatient Reader 最優,Attentive Reader 效果和 Impatient Reader 差不太多。在 Daily Mail 語料中,Attentive Reader 最優。


資源

論文地址:https://arxiv.org/abs/1506.03340
資料集地址:https://github.com/deepmind/rc-data

相關工作

文章借鑑了自動文摘任務,將新聞文字作為 document,將相對應的摘要作為 query。同時為了防止只根據 query 上下文就推斷出答案而不需要閱讀的問題,將實體匿名化並重新排列,最終結果如下:
語料庫構建效果

簡評

文章提供一個比較大的資料集,並且指出 CNN 語料要比 Daily Mail 閱讀理解難度要低一些。同時給了三個 baseline 神經網路模型。

相關文章

程式語言 最新文章