機器語法糾錯能力新突破,微軟小英變身英語寫作老師

NO IMAGE

640?

編者按:機器自動語法糾錯是自然語言處理領域的一個經典研究問題,由於能夠作為訓練資料的句對語料非常有限,機器語法糾錯能力長久以來始終無法達到理想的效果。最近,微軟亞洲研究院採用了一種全新的學習和推斷機制,在CoNLL-2014以及JFLEG兩個權威語法自動糾正評測資料集上,首次實現了機器語法自動檢查結果超越人類參照水平。這項最新的語法改錯技術也催生了“微軟小英”作文打分這一全新的功能。

正在準備英語考試的你是不是在經歷著這樣的困境:動手寫了幾篇英語習作,卻不知道寫得怎麼樣。我寫的內容夠豐富嗎?用詞夠不夠高階?語法是不是準確?邏輯通順嗎?如果老師就在身邊,可以隨時給我的作文打分該有多好。

現在,由微軟亞洲研究院研發的貼身英語私教“微軟小英”可以給你的作文一鍵打分啦!這項技能讓微軟小英從英語口語老師變身成為你的私人英語寫作老師,它能夠綜合多元維度對英語作文打分,並給出分析報告,為四六級、雅思、託福等多種英語語言考試的考生們提供寫作一鍵評分服務。

640?wx_fmt=png

從語音評測到語法改造

在此之前,微軟小英的功能主要集中在英語的口語學習方面,包括跟讀訓練、情景模擬、發音挑戰、易混音練習、繞口令等。融合了語音識別、口語評測、自然語言處理、語音合成等人工智慧技術,微軟小英能夠自動分析使用者的英語發音,綜合語音、語調、流利程度等多方面因素給出一個合理的評分,幫助使用者不斷地糾正錯誤,練就一口標準的發音。

事實上,除了口語,寫作也是語言學習過程中非常重要的一部分,國人對英文寫作的評分和糾錯存在著大量的需求。尤其是對於雅思、託福等語言考試的考生而言,如果每篇作文都購買人工批改服務,將會是一筆不小的開銷。

針對英語學習者在寫作方面的需求,微軟小英“作文打分”新功能在網頁端和手機端同步上線了。使用者可以自主選擇主題或自定義主題進行寫作,在完成後,微軟小英的作文打分功能會綜合考慮拼寫、語法準確性、行文流暢性、內容豐富性、詞彙句式使用程度等多個維度,模仿英語老師快速地生成參考分數和評估報告。與昂貴的人工批改作文相比,微軟小英團隊希望機器寫作評分能夠使更多學生受益於低成本的語言教育。同時,在手機端的功能還可以讓使用者利用碎片化時間隨時隨地進行寫作訓練。

640?wx_fmt=png

微軟小英手機端作文打分介面

640?wx_fmt=png

微軟小英網頁端作文打分介面

作為一款以人工智慧為驅動的互動式英語學習應用,微軟小英的作文打分功能少不了前沿技術的支撐。在其“語法準確性”的評分體系中就採用了微軟亞洲研究院在語法檢查研究上的最新突破——前不久,微軟亞洲研究院自然語言計算組提出的自動語法改錯演算法在CoNLL-2014和JFLEG兩個權威語法改錯資料集上首次超越了人類參考水平,在兩個資料集上都取得了目前最好的結果。

而得益於微軟亞洲研究院內部團隊的密切合作,這項世界領先的機器語法自動檢查技術快速轉化到微軟小英中,成為微軟小英作文打分新功能中一個重要的參考維度。

自然語言處理領域的經典問題

語法自動檢查及糾正是自然語言處理領域的一個經典任務。人們可能對Word文件中檢查和糾正單個詞彙輸入錯誤的拼寫檢查功能很熟悉,與拼寫檢查相比,語法檢查要複雜得多,它需要考察句子中的邏輯關係,包括主謂搭配、介詞使用、時態表達等多達28種(CONLL-2014評測任務中將錯誤型別共分為28種)的“全錯誤型別”

多年來,微軟亞洲研究院在機器翻譯領域有著深厚的技術積累,開發的系統在通用新聞報道測試集newstest2017的中-英測試集上,達到了可與人工翻譯媲美的水平 。對於語法糾錯任務,研究團隊也借鑑了神經網路機器翻譯的思路,類比機器翻譯進行不同語言之間的互譯,語法糾錯則是將錯誤的句型“翻譯”成正確的句型

CoNLL評測是自然語言處理領域中影響力最大的技術評測之一,每年由ACL 的計算自然語言學習會議(Conference on Computational Natural Language Learning,CoNLL)主辦。

根據2015年新加坡國立大學在CoNLL-2014資料集上進行的人工語法改錯評測顯示,人工語法改錯的平均得分為72.58%,而本次微軟亞洲研究院的自動語法改錯模型的得分達到了75.72%。同時,微軟亞洲研究院的自動語法改錯模型,在約翰霍普金斯大學與Grammarly合作釋出的資料集JFLEG上也達到了媲美人類的水準

 “此次在自動語法改錯任務上的突破,主要得益於我們在模型學習和推斷方面對這個任務做了一些針對性的改進。”微軟亞洲研究院自然語言計算組葛濤介紹說,“我們提出了一種全新的學習和推斷機制—— fluency boost learning and inference,其學習過程能生成大量的流暢提升句對,指導模型更好地學習語法糾錯,推斷過程則以不同的視角對句子進行多輪修改,有效地提高了seq2seq模型在語法改錯任務上的表現。”該研究的相關論文已經被ACL 2018接收。(明天,我們將邀請葛濤研究員從技術角度進行詳解。)

讓AI幫助人類規範語言

“在自然語言處理的研究領域中,語法改錯是一個非常基礎的研究方向,但它相對比較小眾,這是因為語法檢查有特定的應用場景和應用人群,只有出現語法錯誤的情況下語法檢查/糾錯才有用武之地。” 微軟亞洲研究院自然語言計算組資深研究員韋福如介紹說,“比如英語語法改錯,目前英語語法檢查的大量需求來自中國、日本、韓國等亞洲地區,正是因為我們這些非母語使用者所擁有的學習英語的親身經歷,使得我們能夠比母語使用者更瞭解英語學習者在學習和使用英語的過程中容易出現的各類錯誤,因此才能夠把英語語法自動改錯任務做得更好。”

事實上,微軟亞洲研究院的這項語法糾錯技術對語言並沒有限制,也就是說除了英語語法檢查,它可以對任意一門語言的語料進行學習和糾錯。

除了幫助人們提高語法和寫作水平,機器語法檢查還有更廣泛的應用場景,無論是人們每天辦公聯絡用到的電子郵件,還是撰寫文案、翻譯檔案、PPT展示……在所有辦公文件出現的地方,語法檢查這項看似小眾的技術都可以大顯身手,更智慧、便捷地幫助人們規範語言的使用。未來,繁雜的語法糾正工作都有可能交給人工智慧來做。

微軟小英團隊在未來也會繼續優化和完善作文打分這項功能,希望該功能不僅能夠給出評分報告,更能針對文字做更細緻的分析,給英語學習者更多具體的修改建議。

你認為語法檢查還能在哪些場景中服務於我們的日常生活呢?歡迎在留言裡寫下你的暢想!

掃描下方二維碼,試試最新的作文打分功能吧!

640?wx_fmt=jpeg

你也許還想看


 微軟小英帶你學貫中西

 微軟人工智慧又一里程碑:微軟中-英機器翻譯水平可“與人類媲美”

 ACL 2018  | TA-NMT:利用大語種語料,提升小語種神經機器翻譯能力

640.png?

感謝你關注“微軟研究院AI頭條”,我們期待你的留言和投稿,共建交流平臺。來稿請寄:[email protected]


640.jpeg?