阿里AAAI2018論文解讀:輕量網路訓練框架、GAN中文命名實體識別、英俄翻譯等

阿里AAAI2018論文解讀:輕量網路訓練框架、GAN中文命名實體識別、英俄翻譯等

點選有驚喜

【論文簡介】像點選率預估這樣的線上實時響應系統對響應時間要求非常嚴格,結構複雜,層數很深的深度模型不能很好的滿足嚴苛的響應時間的限制。為了獲得滿足響應時間限制的具有優良表現的模型,我們提出了一個新型框架:訓練階段,同時訓練繁簡兩個複雜度有明顯差異的網路,簡單的網路稱為輕量網路(light net),複雜的網路稱為助推器網路(booster net),相比前者,有更強的學習能力。兩網路共享部分引數,分別學習類別標記,此外,輕量網路通過學習助推器的soft target來模仿助推器的學習過程,從而得到更好的訓練效果。測試階段,僅採用輕量網路進行預測。我們的方法被稱作“火箭發射”系統。在公開資料集和阿里巴巴的線上展示廣告系統上,我們的方法在不提高線上響應時間的前提下,均提高了預測效果,展現了其在線上模型上應用的巨大價值。

【方法框架】

3eba9ed683c2ab8a40902087513e9d34a3e43ffe

圖1:網路結構

如圖1所示,訓練階段,我們同時學習兩個網路:Light Net 和Booster Net, 兩個網路共享部分資訊。我們把大部分的模型理解為表示層學習和判別層學習,表示層學習的是對輸入資訊做一些高階處理,而判別層則是和當前子task目標相關的學習,我們認為表示層的學習是可以共享的,如multi task learning中的思路。所以在我們的方法裡,共享的資訊為底層引數(如影象領域的前幾個卷積層,NLP中的embedding), 這些底層引數能一定程度上反應了對輸入資訊的基本刻畫。

【論文連結】https://arxiv.org/abs/1708.04106

2. 基於對抗學習的眾包標註用於中文命名實體識別

《Adversarial Learning for Chinese NER from Crowd Annotations》

【團隊名稱】業務平臺事業部

【主要作者】楊耀晟,張梅山,陳文亮,王昊奮,張偉,張民

【文章簡介】為了能用較低的成本獲取新的標註資料,我們採用眾包標註的方法來完成這個任務。眾包標註的資料是沒有經過專家標註員稽核的,所以它會包含一定的噪聲。在這篇文章中,我們提出一種在中文NER任務上,利用眾包標註結果來訓練模型的方法。受到對抗學習的啟發,我們在模型中使用了兩個雙向LSTM模組,來分別學習眾包標註資料中的公有資訊和屬於不同標註員的私有資訊。對抗學習的思想體現在公有塊的學習過程中,以不同標註員作為分類目標進行對抗學習,從而優化公有模組的學習質量,使之收斂於真實資料(專家標註資料)。我們認為這兩個模組學習到的資訊對於任務學習都有積極作用,並在最終使用CRF層完成ner標註。

【模型如下】

cd7de59dbe43247bbc639472bb0e133b143f67ab

3. 句法敏感的實體表示用於神經網路關係抽取

《Syntax-aware Entity Embedding for Neural Relation Extraction》

【團隊名稱】業務平臺事業部

【作者】何正球,陳文亮,張梅山,李正華,張偉,張民

【論文簡介】句法敏感的實體表示用於神經網路關係抽取。關係抽取任務大規模應用的一個主要瓶頸就是語料的獲取。近年來基於神經網路的關係抽取模型把句子表示到一個低維空間。這篇論文的創新在於把句法資訊加入到實體的表示模型裡。首先,基於Tree-GRU,把實體上下文的依存樹放入句子級別的表示。其次,利用句子間和句子內部的注意力,來獲得含有目標實體的句子集合的表示。

【主要方法】

01e9536150e82154ffbd48059cd34e9457ab409a

首先,基於依存句法樹,利用基於樹結構的迴圈神經網路(Tree-GRU)模型生成實體在句子級別的表示。如上圖所示,有別於僅僅使用實體本身,我們能夠更好地表達出長距離的資訊。具體的實體語義表示如下圖所示。我們使用Tree-GRU來獲得實體的語義表示。

75a3cd40ba52af21a75672fe89f82be6f633d2e2

其次,利用基於子節點的注意力機制(ATTCE,上圖)和基於句子級別的實體表示注意力機制(ATTEE,下圖)來減輕句法錯誤和錯誤標註的負面影響。

f266a5964728b85d5dd514ca5869b81e0e101bae

4. 一種基於詞尾預測的提高英俄翻譯質量的方法

Improved English to Russian Translation by Neural Suffix Prediction

【團隊】iDst-NLP-翻譯平臺

【作者】宋楷/Kai Song(阿里巴巴), 張嶽/Yue Zhang(新加坡科技設計大學), 張民/Min Zhang (蘇州大學), 駱衛華/Weihua Luo(阿里巴巴)

【論文簡介】神經網路翻譯模型受限於其可以使用的詞表大小,經常會遇到詞表無法覆蓋源端和目標端單詞的情況,特別是當處理形態豐富的語言(例如俄語、西班牙語等)的時候,詞表對全部語料的覆蓋度往往不夠,這就導致很多“未登入詞”的產生,嚴重影響翻譯質量。

已有的工作主要關注在如何調整翻譯粒度以及擴充套件詞表大小兩個維度上,這些工作可以減少“未登入詞”的產生,但是語言本身的形態問題並沒有被真正研究和專門解決過。

我們的工作提出了一種創新的方法,不僅能夠通過控制翻譯粒度來減少資料稀疏,進而減少“未登入詞”,還可以通過一個有效的詞尾預測機制,大大降低目標端俄語譯文的形態錯誤,提高英俄翻譯質量。通過和多個比較有影響力的已有工作(基於subword和character的方法)對比,在5000萬量級的超大規模的資料集上,我們的方法可以成功的在基於RNN和Transformer兩種主流的神經網路翻譯模型上得到穩定的提升。

【詞尾預測網路】在NMT的解碼階段,每一個解碼步驟分別預測詞幹和詞尾。詞幹的生成和NMT原有的網路結構一致。額外的,利用當前step生成的詞幹、當前decoder端的hidden state和源端的source context資訊,通過一個前饋神經網路(Feedforward neural network)生成當前step的詞尾。網路結構如下圖:

點選有驚喜