NO IMAGE

GitChat 作者:魏勇鵬
原文: 除了深度學習,機器翻譯還需要啥?
關注微信公眾號:GitChat 技術雜談 ,一本正經的講技術

眼球不夠,八卦來湊

以一個“八卦”作為開頭吧。

本文開始要寫作的時候,翻譯圈裡出了一個“爆炸性”的事件。6月27日下午,一個同傳譯員在朋友圈裡爆料:某AI公司請這位譯員去“扮演”機器同傳,製造人工智慧取代人工同傳的“震撼”效果。

enter image description here

這個事件瞬間在譯員群體的朋友圈、微博、微信群引爆了隱忍已久的火藥桶。因為過去幾個月來,隔三差五就冒出一個號稱要取代同聲傳譯的翻譯機,尤其是一篇題為《剛剛宣告:同聲傳譯即將消亡!》的微信文章,在六月下旬鋪天蓋地的充滿了一堆有關的或者無關的公眾號,不知道帶來了幾個10萬 。幾乎每個翻譯行業的從業者,都收到了朋友略帶同情關切的口氣轉過來的那篇文章,從一開始的“呵呵”到逐漸不堪其擾,終於被上面這個事情徹底激怒了。微博上的@同聲翻譯櫻桃羊 嗆聲道:

還有臺上的演講嘉賓,光鮮亮麗的,德高望重的,一邊享受著我們的服務,一邊兒說以後同傳都要失業,骨子裡透著對這個行業的輕慢——“你們以後都是要被替代的工種,我們何必在乎你們的感受?”有本事不要請我們,既然請了我們,在說這句話之前,能不能跟現場辛苦工作的同傳說聲抱歉?

“積怨”深到了什麼樣的程度,可見一斑。

這件事後來有了一個略帶戲劇性的轉折。兩天後,《消亡》文中被吹捧的曉譯翻譯機的製造者,科大訊飛(注意:沒有證據表明上面的造假和訊飛有關)在其公眾號上釋出了一篇題為《拒絕神化 人工智慧技術需踏實前行》的文章。重點在這兩段:

目前,機器翻譯已經取得非常大的進步,在衣食住行等常用生活用語上的中英翻譯可以達到大學六級的水平,能夠幫助人們在一些場景處理語言交流的問題,但距離會議同傳以及高水平翻譯所講究的“信、達、雅”還存在很大的差距。

訊飛一直所努力的,是希望通過語音轉寫和翻譯技術幫助同傳提高工作效率、減少失誤,形成人機耦合的同傳新模式,並不是去替代同聲傳譯。

好吧,原來是“被神化”,原來“我是拒絕的”。但是不管怎麼樣,此文一出,又收穫了不少不明真相群眾的交口稱讚。而義憤填膺的譯員們,也迅速恢復了低調內斂的幕後工作者姿態。甚至連揭發造假者的呼籲,也立馬無聲無息了。

作為一個混跡在人工翻譯圈的機器翻譯工作者,我感覺到,這個事情暴露出了一些對翻譯行業的很深的誤解,無論是普通大眾還是機器翻譯/人工智慧工作者。本文的主題,初衷就是探討人機結合對於機器翻譯發展的重要性。所以,有必要首先澄清一下這些誤解。GitChat的讀者們可能更期待技術深度,一開始我也打算寫得更技術流一些。但是,上面這個事件出現之後,我覺得在關心人機結合模式的技術實現之前,我們還是得多探究一下問題的本質。雄心勃勃要替代人工的同行們,也得先知道要替代的到底是神馬樣的存在,不是麼?

誤解一:翻譯就是簡單機械的語言轉換

對翻譯工作的誤解非常多,這點是最核心的,很多其他誤解(比如會外語就能做翻譯、翻譯人才遍地都是、翻譯不需要理解專業就能做等)和由此產生的輕慢(翻譯沒有技術含量、隨便可以替代、不值錢等),正是根源於此。

為什麼這麼多人“一致”相信翻譯即將被替代?除了博眼球的自媒體之外,“替代黨”包括了太多的網際網路大佬,比如庫茲韋爾、李彥巨集、李開復、王小川等等。我們來看看這背後的邏輯是什麼。

李開復在其新書《人工智慧》中提出了一個“五秒鐘準則”:一項本來由人從事的工作,如果人可以在5秒以內對工作中需要的思考和決策的問題做出相應的決定,那麼,這項工作就有非常大的可能被人工智慧技術全部或部分取代。

然後基於“五秒鐘準則”,該書預測:從事翻譯、新聞報道、助理、保安、銷售、客服、交易、會計、司機、家政等工作的人,未來10年將有約90%被人工智慧全部或者部分取代。

顯然,翻譯不幸被首當其衝的歸入“五秒鐘”可以解決的問題。大概是同聲傳譯這個帶著光環的工種給大家帶來了一個幻覺:翻譯不就是幾秒鐘就出來的嗎?而且,據說同傳還是所有翻譯工作裡最難最貴的,那其他翻譯豈不是更不在話下?

事實上呢?口譯員們知道,為了準備一場會議口譯,事先要提前做多少天的功課,會前要做多少溝通協調,會中要多注意隨機應變;更不用說,達到可以做同傳的水準,要經過多少年鬼知道經歷什麼的刻苦訓練。用“臺上一分鐘,臺下十年功”來形容口譯員的工作,再貼切不過。而筆譯的工作,也一點都不輕鬆,也同樣需要多年的磨練才能產出合格的譯文。

進一步說,這個誤解實際上包含兩個論斷:

  1. 翻譯只是語言轉換。

  2. 語言轉換是簡單機械的。

實際上,這兩個論斷都是不成立的。

對於第一個問題,我們要追問一下翻譯的本質。翻譯是一種語言服務。對於語言服務,近期看到廣東外語外貿大學的李瑞林教授給出的定義,我認為最接近其本質:語言服務是以語言資源為基礎,以致知、賦能、移情為目標,實現知識和經驗人際或組織間轉移的社會經濟過程(見《語言服務概念框架的再反思:存在依據、普遍本質及實踐邏輯》)。可見,語言是翻譯這種服務實現的一個載體,而不是服務本身。翻譯工作帶來的知識、經驗和情感,才是最關鍵的東西。而這些東西,相信開復們都不會認為是機器很容易處理的(記憶性的靜態知識除外)。

對於第二個問題,則要進一步追問“語言”的本質。我們知道,語言是資訊的載體。比如我們要傳達“蘋果”的資訊給另一個人的時候,不用非得拉著他去水果店或者某高科技體驗店去才行。但是這個資訊載體並不是無損的,我們用“蘋果”這個概念,顯然無法把具體的形狀、顏色、觸感、氣味、效用等資訊都全部傳輸過去,得靠對方把其他資訊“腦補”出來。因此,語言實際上只是資訊處理過程中的一個經過編碼了的“快捷方式”。能否把快捷方式所代表的資訊解碼出來,對資訊接收者的認知結構是有要求的。這就是所謂的“一千個讀者就有一千個哈姆雷特”。一個翻譯工作者既要做解碼者,又要做編碼者,必須在短時間內使自己的認知結構接近原文作者的預期,又要考慮到另外一種語言的讀者的認知結構的差異。轉換的難度可想而知。

因此,翻譯這個事情,不是想當然的那麼簡單。在本文的預告貼裡,我列舉的幾個語言特性中,“開放性”、“歧義性”、“演化性”等問題,給翻譯帶來了極大的困難。我們想要讓機器翻譯達到或者超過人工翻譯,首先得正視其困難和價值,而不是靠將對方“簡化”為某種形式的機器。否則的話,我們豈不就相當於靠把國乒搞垮來實現“讓國足達到國乒的水準”?

誤解二:人工翻譯就是“好翻譯”

這點可能是人工智慧工作者普遍的誤解,但也是目前大家對機器翻譯普遍非常樂觀的一個原因。受“圖靈測試”思想的影響,我們會把“讓機器翻譯給出好的譯文”這個問題轉化為“如果機器翻譯給出的譯文,人無法分辨是人還是機器做的,就是好的譯文”。所以絕大部分的機器翻譯訓練,無論是統計機器翻譯還是人工神經網路,都以和人工譯文語料庫的“最大似然度”為訓練目標。也就是,想辦法讓機器譯文看起來和平行語料的對譯關係最接近。

這個假設又包含以下幾個子假設:

  1. 人工翻譯水平是質量刻度線上的一個黃金分界點。

  2. 我們可以從平行語料(只要足夠多)中學習到這個分界點。

  3. 普通雙語人士可以很確定的分辨出譯文質量是否過了這個分界點。

很遺憾,這幾個假設,也是我們為了讓問題有更良好的形式化定義,以及有相對一致的評價標準,而做出的簡化假設。在我們離問題的“完美”解決方案還很遠的時候,這些假設對於我們做出切實有用的近似解決方案,是非常有幫助,也是必須的。但是如果把在這些假設下得到的區域性最優解的大幅進步等同於非常接近全域性最優解了,就會產生即將衝破臨界點的幻覺。這對於探求真正的真理,是不利的。

我們逐個說一下上面幾個子假設。

第一,人工翻譯水平顯然不是質量刻度線上的一個點,而是上下界離得很遠的一個區間,比如從30分到99.99分。其下界低於機器翻譯的水準,是最正常不過的事情了。更要命的是,這個刻度線上的刻度值(如果以所需投入的努力作為間距衡量單位)並不是等距離分佈的。打個比方,59分到60分如果間隔1釐米的話,95分到96分的間隔可能是1米,而98分到99分可能是幾公里……所以,試問我們應該把哪個位置設為人工翻譯的水平線呢?這裡面學問可就大了——比如把分界點設在60分,讓機器翻譯從30分提高到57分,是不是可以說目標達成90%了?即使我們設定了99分的高標準,機器翻譯從39分提高了30分到69分,離99分還有30分的時候,我們能宣稱走完一半的路了嗎?恐怕萬里長征只是第一步。可是我們很容易想當然的這麼來炫耀我們走過的路。比如去年穀歌GNMT的那篇論文,就是這樣計算出來提升了87%(某個語種方向上,大家可以去找來原論文分析一下其評測資料和結論之間的關係),已經可以看到勝利在凱旋門下招手了……

第二,相比別的一些自然語言處理任務,機器翻譯顯得更成功,就是因為有平行語料這種天然帶標的資料資源。只要平行語料是人工翻譯的,我們似乎就可以將其作為衡量質量的黃金標準。然而,問題在於:

  • 語料是有限的,但語言是開放的,和語料不匹配的,不代表是“不好的”。

  • 語料是靜態的,但語言是動態演化的——過去好的,現在未必好。在一個領域好的,換個領域未必好。對一部分人或場景好的,對其他人或場景未必好。

  • 語料本身的質量可能是參差不齊的(因為人工翻譯的質量是參差不齊的,參考上述第一條,暫且不說很多語料的來源也是機器翻譯),尤其是海量規模的時候,也就是說,近似的也未必是好的。

因此,基於雙語語料的質量標準,也是沒有更好辦法的辦法,“黃金”度還是不夠高的。

第三,假設我們確實可以找到足夠好的人工譯文作為質量標準,那麼是不是任何一個雙語人士都有足夠的判別能力,來正確區分人工譯文和機器譯文呢?也就是說,會不會出現這種情況,一個機器譯文確實是有瑕疵的,但某些人就是看不出來它與參考譯文不一致的地方到底是好還是不好?答案是肯定的。這就像機器寫詩,普通人的鑑賞能力或閱歷經驗有限,可能已經分辨不出它是不是機器寫的,所以才有微軟的機器人小冰潛伏在各個文學社群也沒被發現。但是對文字敏銳的人,還是可以篩選出來哪些是好的詩歌——小冰出版的詩集,其實也是經過人工“精選”的。既然如此,不同資歷、不同專業、不同文化、不同目標、不同條件的人,對翻譯質量的認知也是不一樣的。找什麼樣的人來作為圖靈測試的鑑別者,也是一個需要仔細考量的事情。

三個子假設都與現實問題存在一定的差距,可見,我們目前所以為據的評價體系,還不足以帶來足夠充分的反饋。這點正是和下圍棋的AlphaGo的最大不同。我們知道,AlphaGo最強大的地方,就是可以通過自己和自己下棋來不斷提升水平,而自我對弈的前提,是明確的勝負判別標準。而翻譯孰好孰壞,還沒有很好的評價機制。也正因為如此,今年火的一塌糊塗的生成對抗網路(GAN)在機器翻譯中雖然驗證有效,但效果並不太驚豔。要想取得突破,在評價機制上必須多花點心思了。

誤解三:翻譯市場就那麼大,機器做得多了,人的飯碗就小了

的確,我們如果把翻譯市場比作圍棋棋盤,人工翻譯執黑,機器翻譯執白,雙方你死我活、拼命廝殺、攻城掠地、此消彼長,那就會存在所謂的“替代”問題。

可是,現實的翻譯市場格局是怎樣的呢?我們來看下面這張圖。

enter image description here

這張圖出自行業研究報告。如果把企業中的文字內容比作一個金字塔:

  • 頂端的部分,是目前由人工翻譯來完成的,包括產品資料、營銷文案、品牌形象、法務合同等。

  • 底端的部分,是目前由機器翻譯來完成的,大多數是由使用者發起的公開網頁瀏覽等。

  • 中間的部分,比如實時支援和FAQ、使用者生成內容、企業內部知識庫等,其實是沒有被翻譯的。

而這些沒被翻譯的內容,竟然佔到了99%!

也就是說,無論對於人工翻譯還是機器翻譯,都有大片的處女地等待開墾,而且其中很大比例,可能需要人和機器攜起手來,才能夠給出可行的解決方案。

君不見,如今機器翻譯用得最多的那些場景,比如旅遊、電商、聊天社交,之前也並不是人工翻譯的菜。而未來在客服、知識庫、UGC等場景下的語言支援,基本上都要求既要有機器的快捷,又要有人工的可靠性或溫度,一定是人機結合才能做到的。

更何況,上面的這個金字塔的體量也不是一成不變的,隨著網際網路和人工智慧的發展,全球資訊加速流動,內容規模不斷膨脹,整體需求只會不斷擴大,試問人機雙方何時才能夠在楚河漢界上兵戎相見?

進入正題

等等,預訂時說好的內容呢?為什麼總是在講這些誤解?

實際上,關於翻譯行業或職業的誤解還有很多,為什麼就挑這三點來講?不單是因為這三點最要害,更是因為澄清了這三點,我們的正題及預定通告中的第一問(為什麼需要人機結合)的答案就非常清楚了。

  1. 機器翻譯要替代人工翻譯,還有很遠的路要走。

  2. 人工和機器相結合,才能給出更好的解決方案,釋放出原先被壓抑的更大需求。

  3. 翻譯是知識、經驗和情感的轉移,人是實現這種轉移的主體,現階段只有通過人,才能更好的獲取機器翻譯所需要的知識和資料。

  4. 缺少好的評價機制,很快將成為制約機器翻譯進步的關鍵瓶頸,而語言的特性決定了,評價反饋不能來自語言本身,而只能來自於語言使用場景中的人。

對於致力於機器翻譯/人工智慧的同行,希望這篇文章,可以引起大家的一些思考。上述觀點不一定正確。但是在密切跟進深度學習最新成果的今天,也許我們也應該適當低頭想想,我們還缺什麼,在可見的成果收割之後,還可以做些什麼。

翻譯圈的朋友,看到機器翻譯還代替不了人工翻譯的時候,是不是了鬆一口氣?然而,這並不意味著機器翻譯不會使現有的譯員失業。再下一篇文章裡,我將回答預定通告中的第二問(人機結合翻譯怎麼做)。順帶說說,機器翻譯讓譯員失業的N種可能性。


實錄:《魏勇鵬:人機結合智慧翻譯實戰解析》


【GitChat達人課】

  1. 前端惡棍 · 大漠窮秋 :《Angular 初學者快速上手教程
  2. Python 中文社群聯合創始人 · Zoom.Quiet :《GitQ: GitHub 入味兒
  3. 前端顏值擔當 · 餘博倫:《如何從零學習 React 技術棧
  4. GA 最早期使用者 · GordonChoi:《GA 電商資料分析實踐課
  5. 技術總監及合夥人 · 楊彪:《Gradle 從入門到實戰
  6. 混元霹靂手 · 江湖前端:《Vue 元件通訊全揭祕
  7. 知名網際網路公司安卓工程師 · 張拭心:《安卓工程師跳槽面試全指南

這裡寫圖片描述