阿里史上首款AI硬體裝置,為何如此“聽話”?

阿里史上首款AI硬體裝置,為何如此“聽話”?

7月6日,阿里人工智慧實驗室釋出了旗下首款智慧語音終端裝置天貓精靈X1。天貓精靈X1內建第一代中文人機交流系統AliGenie。AliGenie生活在雲端,它能夠聽懂中文普通話語音指令,目前可實現智慧家居控制、語音購物、手機充值、叫外賣、音訊音樂播放等功能,帶來嶄新的人機互動新體驗。

天貓精靈X1和AliGenie均由阿里巴巴的科學家和工程師團隊研發,應用了阿里巴巴積累多年的語音識別、自然語言處理、人機互動等技術。

一篇自然語言處理(NLP)的相關論文《一種新的語義編碼模型及其在智慧問答及分類中的應用》被國際資料探勘頂會 KDD2017 收錄,本次也被應用在天貓精靈裡。在自然語言處理的兩個核心應用場景——文字分類和智慧問答上,天貓精靈這套「即刻喚醒,即刻識別」神經網路模型的智慧問答準確率相比微軟的
wikiqa 資料集和 IBM 的 insuranceqa 資料集提升了 2-4%,是目前業內最高水準。

 

本次阿里妹邀請到阿里巴巴人工智慧實驗室資深演算法工程師王成龍,為大家深入解讀這篇論文,揭開天貓精靈“聽懂人話”的祕密。

語義編碼的意義

自然語言這一被人類發明的訊號系統,通常被我們歸為一種「非結構化資料」。其原因在於,自然語言文字是由一堆符號(token)順序拼接而成的不定長序列,很難直接轉變為計算機所能理解的數值型資料,因而無法直接進行進一步的計算處理。語義編碼的目標即在於如何對這種符號序列進行數值化編碼,以便於進一步地提取和應用其中所蘊含的豐富資訊。語義編碼是所有自然語言處理(Natural
Language Processing,NLP)工作的「第一步「,同時也很大程度地決定了後續應用的效果。

傳統的文字編碼方式通常將其當作離散型資料,即將每個單詞(符號)作為一個獨立的離散型數值,如 Bag-of-Words (BOW)、TF-IDF 等。但是這類方法忽略了單詞與單詞之間的語義關聯性,同時也難以對單詞的順序及上下文依賴資訊進行有效編碼。近幾年,深度學習技術被廣泛的應用於 NLP 領域,並在眾多演算法命題上取得了突破。其本質在於,深度神經網路在特徵提取(語義編碼)上具有極大的優勢。

已有方法的瓶頸

當前,較為常用的文字語義編碼模型包括迴圈神經網路(Recurrent Neural Network,RNN)以及卷積神經網路(Convolution Neural Network,CNN)。

迴圈神經網路是應用最為廣泛的序列資料神經網路建模方法。相對於傳統的前向神經網路,迴圈神經網路的主要特點在於,在每個時刻,其輸出不僅要依賴於當前時刻的輸入,還要考慮上一時刻的模型「狀態」。通過對歷史狀態的依賴,RNN 模型能夠有效的表徵文字資料的上下文依存資訊。但是,RNN 的「巨集偉目標」-有效管理任意跨度的資訊傳遞-往往使得其難以有效的訓練,進而也限制了其在具體應用中的效果。

另一被廣泛應用的語義編碼模型是 CNN 模型。傳統的 CNN 建模通常用於解決影象的特徵提取。但近年來,眾多學者嘗試將其應用到文字處理領域。CNN 的模型結構來源於對人類視覺神經訊號處理機制的模擬。與文字資料不同的是,影象資料通常被看做一個二維資料結構,而相應的 CNN 模型也更適於提取其中的「區域性」特徵。但與影象資料相似的是,文字資料中的上下文依賴通常可以被簡化為一種「區域性」資訊,即傳統
NLP 領域中的 N-gram 語言模型:文字中一個詞的具體含義,通常只和上文有限距離內的幾個詞相關。因此,CNN 中的「區域性卷積」資訊處理機制同樣可以應用於文字資料中,用於提取文字中的 N-gram 特徵。但是,與影象資訊不同的是,文字資料中的上下文依賴關係有可能會經歷一個很長的跨度。而 CNN 只能對固定範圍內的區域性依存關係進行建模。因此,CNN
語義編碼方法也存在一定的缺陷。

Conv-RNN

近期,我們團隊與資料技術及產品部兄弟團隊共同投稿一篇 KDD 文章,其中我們提出了一種新的文字語義編碼演算法 conv-RNN(如圖 2 所示)。該模型在參考了迴圈神經網路與卷積神經網路的同時,進行了進一步的文字語義編碼優化。conv-RNN 不僅保留了 RNN 模型對不定長跨度的上下文依賴的編碼能力,還利用了
CNN 模型中常用的最大池化機制,用以更加簡潔地從文字資料所蘊含的豐富資訊中抽離出不同的資訊表徵。

此外,在 conv-RNN 的基礎上,我們還提出了一種新的智慧問答(answer selection)模型以及文字分類(sentence classification)模型。為了充分驗證所提出的模型的效果,我們分別選取了智慧問答及文字分類領域的一批標準資料集,與當前業界的最新成果進行了對比驗證。

智慧問答

智慧問答是當前比較火的一個 NLP 應用領域,也被認為是 NLP 研究最有可能於近期實現商業化落地的一個領域。在 conv-RNN 語義編碼演算法基礎之上,我們進一步提出了一種新的問答匹配模型。此外,在該模型中,我們還引入了一種「權值共享」機制以及 attention 方法,用以進一步提升 question-answer
匹配效果。

我們選用了微軟釋出的 WikiQA 資料集以及 IBM 釋出的 InsuranceQA 資料集用來對比所提出的模型與業界的 state-of-the-art 方法,以驗證該模型的有效性。由結果可知,在 WikiQA 資料集上,conv-RNN 擊敗了所有 state-of-the-art 方法,並且在 MAP(mean
average precision)和 MRR(mean reciprocal rank)兩個指標上均取得了較大的提升。在 InsuranceQA 資料集上,conv-RNN 在 dev 和 test2 兩個測試集上均取得了較大的提升,僅在 test1 上略低於 AP-BILSTM。

文字分類

在 conv-RNN 的基礎上,我們進一步提出了一種新的文字分類模型(如圖 4 所示)。為了驗證該模型的有效性,我們選取了業界常用的 5 個標準的分類資料集:Movie Review(MR);Stanford Sentiment Treebank-1(SST-1);Stanford Sentiment Treebank-2(SST-2);Subj;IMDB。由對比結果可知,conv-RNN
在前 4 個資料集上均超越了各類 state-of-the-art 方法。

總結

語義編碼技術是所有 NLP 工作的基礎,也是當前 NLP 技術進一步發展的主要「瓶頸」所在。我們在語義理解以及更上層的智慧問答、多輪人機互動方向已經有了一定的技術積累,後續還會繼續在這一方向發力,以期能夠儘快做出為大眾服務的人工智慧產品。