(轉)深度學習是經驗主義新高峰,不是理性主義終結

NO IMAGE

【NLP反思扛鼎之作】深度學習是經驗主義新高峰,不是理性主義終結

2017-06-15 新智元

新智元推薦
來源:立委NLP部落格,公眾號洗腳池
作者:Kenneth Church
譯者:李維 唐天

【新智元導讀】丘吉的這篇2011年的長文《鐘擺擺得太遠》(A Pendulum Swung Too Far) 是一篇從 AI 高度回顧NLP 全部歷史的反思力作,主要回顧了三位大師明斯基、喬姆斯基、皮爾斯的經典思想。同時穿插著帕佩特(Papert) 、汝拉夫斯基(Jurafsky) 、馬丁(Martin) 、曼寧(Manning) 、魏岑鮑姆(Weizenbaum)、羅(Roe)、威爾彭(Wilpon)、斯蒂德曼(Steedman)、哈欽斯(Hutchins)、畢夏普(Bishop) 、黑斯蒂(Hastie)、舒茲(Schütze)等人的觀點或評論。

AI 的發展中,理性主義和經驗主義此起彼伏,就像鐘擺的週期性回擺。目前已經偏離經驗主義太遠太高,但偏離越遠,將來回歸理性主義的速度就會越快。深度學習是經驗主義的一個新高峰,但它不會是理性主義的終結者。因為這是科學哲學高度的兩個基本的方法論,是貫穿人工智慧全部歷史的。

Kenneth Church 談人工智慧和自然語言的歷史、發展與未來
選自中國計算機學會通訊

譯者按:肯尼斯·丘吉(Kenneth Church) 是自然語言領域的泰斗,語料庫語言學和機器學習的開拓者之一。丘吉的這篇長文《鐘擺擺得太遠》(A Pendulum Swung Too Far) 是一篇主流反思的扛鼎之作。作者在文章中回顧了人工智慧發展中,理性主義和經驗主義各領風騷此消彼長的歷史規律,並預測了今後20 年自然語言領域的發展趨勢。文章的主旨是,我們這一代學者趕上了經驗主義的黃金時代(1990 年迄今),把唾手可得的低枝果實採用統計學方法採摘下來,留給下一代的都是“難啃的硬骨頭”。20 多年來,向統計學一邊倒的趨勢使得我們的教育失之偏頗。現在應該思考如何矯正,使下一代學者做好創新的準備,結合理性主義,把研究推向深入。丘吉的憂思溢於言表。丘吉預測,深度網路的熱潮為主流經驗主義添了一把火,將會繼續主導自然語言領域十多年,從而延宕理性主義迴歸的日程表。但是他認為理性主義復興的歷史步伐不會改變。他對主流漠視理性主義的現狀頗為憂慮,擔心下一代學者會淹沒在一波又一波的經驗主義熱潮中。

實用主義動機

20 世紀90 年代,經驗主義的復興是一個激動人心的時刻。我們從來沒有想到,我們的努力會如此成功。當時,我們想要的只不過是一席之地而已。在當時流行的各項研究之外,我們所想的只是為不同於當時其他研究的工作爭取一點空間。我們成立了SIGDAT為這類工作提供一個論壇。在1993 年成立之初,SIGDAT只是一個相對較小的關於大語料庫的會議論壇,後來演變成規模較大的EMNLP 會議。起初,SIGDAT 會議在很多方面(規模、主題和地理範圍)都與主流ACL大會非常不同。然而若干年後,這些區別已經很大程度上消失了。兩個會議靠攏,這讓人感到高興。但我們可能是太成功了,我們不僅成功地讓我們感興趣的工作登堂入室,沒給其他工作留下多少空間。圖1 展示了從理性主義到經驗主義的這一戲劇性轉變。這種轉變還在繼續,似乎看不到盡頭。

圖1 理性主義到經驗主義的轉變令人驚訝(而且毫無爭議)。該圖是基於鮑勃·摩爾(Bob Moore)和弗雷德·賈里尼克(Fred Jelinek)對ACL會議的獨立調查(私人通訊)

根據霍爾(Hall) 等人的文章,這種轉變始於1988 年布朗 (Brown)和丘吉的工作。霍爾等人的依據是對ACL 文集的分析,文獻包括自20 世紀70年代至今在計算語言學領域發表的總計16500 篇論文。

但是,如果我們考慮一個更長的時間段,追溯 ACL 文集以前的文獻,我們看到的是一幅非常不同的畫面,如圖2 所示。更加顯著的趨勢是經驗主義與理性主義之間的振盪,像鐘擺一樣,每隔二十多年來回振盪一次:
20世紀50 年代:經驗主義(夏農(Shannon)、斯金納(Skinner)、弗斯(Firth)、哈里斯(Harris)) ;
20世紀70 年代:理性主義(喬姆斯基(Chomsky)、明斯基(Minsky));
20世紀90 年代:經驗主義(IBM 語音團隊(IBM Speech Group)、AT & T 貝爾實驗室(AT&T Bell Labs));
2010年代:迴歸到理性主義了嗎?

圖2:對文獻不尋常的解讀,其中圖1所示的趨勢(此處以紅點表示)是每隔20多年更大振盪的一部分。注意紅點所示的是實際資料,而振盪曲線所示意的趨勢只是為了說明一個觀點

本文將回顧一些我們這一代人曾經“反叛”的理性主義觀點。遺憾的是,我們這一代是如此成功,以至於這些理性主義觀點被人們忘卻了(如果我們接受圖2給出的預測,那麼現在正是理性主義應該復甦的時期)。有些重要的理性主義代表人物如皮爾斯(Pierce) 在當今流行的教科書裡甚至沒有提及。如此下去,下一代人可能沒有機會聽到理性主義一方辯論的聲音。特別是,如果理性主義立場在今後幾十年逐漸流行,理性主義者可以提供很多值得重視的見解。

是什麼促使20 世紀90 年代經驗主義的復興?我們當時在反抗什麼?經驗主義復興實際上是受到了實用主義考量的推動。學術界當時正埋頭研究自然語言中面臨的巨大挑戰,例如完備人工智慧(AI-complete) 的難題和遠距離的依存關係。而我們所提倡的是從務實的角度來先針對一些較簡單的、較有可能求解的任務,例如詞性標註。當時資料的獲得變得前所未有的方便。我們能用這些語料資料做些什麼呢?我們認為,做成一些簡單的事情比根本不做強。讓我們去摘取一些低枝的果實,讓我們利用近距離依存關係做我們能做的事情。雖然那不能解決整個問題,但還是讓我們專注於我們能做什麼,而不是我們不能做什麼。玻璃杯有一半是滿的(而不是已經空了一半)。
我們當時是這樣記述這段歷史的:

“20 世紀90 年代重現了具有20 世紀50 年代風格的語言分析的經驗主義及其統計方法。50 年代是經驗主義的高峰期,主導了從心理學(行為主義)到電子工程(資訊理論)一系列廣泛的領域。當時語言學的通行做法是,不僅僅依據詞義,還要基於它與其他詞共同出現的情形來劃分詞類。50 年代英國語言學領域的領袖人物費思(Firth)用一段令人難忘的話總結此方法:‘通過一個詞周圍的詞來了解這個詞的意義。’遺憾的是,受一系列重大事件的影響,50年代後期和60年代早期,經驗主義式微。這些重大事件包括喬姆斯基(Chomsky) 在《句法結構》(Syntactic Structures ) 中對N 元文法 (n-grams) 的批判,明斯基與帕佩特(Papert) 對神經網路的批判。

經驗主義復興最直接的原因也許是大量資料可用:文字從來沒有這麼豐富過。10 年前,蒐集了100 萬詞的布朗(Brown) 語料庫就被弗朗西斯(Francis) 和庫塞拉(Kucera) 認為是大資料,但即使在那時,也有更大的語料庫,如伯明翰(Birmingham) 語料庫。如今,許多地方的文字樣本已經達到上億甚至幾十億詞量……。通常稱為文字分析的資料密集型語言研究方法採取的是實用主義手段,非常適合近來被強調的數值評估和具體的任務。文字分析強調對非受限文字(unrestricted text) 的廣泛覆蓋(儘管可能膚淺),而不是對於(人為)限定領域的深度分析。”

寒冬

20世紀90年代早期, 研究界發現應該注重務實方法,原因之一是該領域當時正處於嚴重的資金寒冬, 史稱第二季人工智慧寒冬(AI winter of1987~1993)。在又一次資金蕭條到來之際,研究共同體比較容易接受一種更加現實的、結果更可靠的新方法。根據維基百科資料:

“在人工智慧的發展歷史中,所謂人工智慧寒冬是指社會對人工智慧研究的資助和興趣消減的時期。許多新興技術都經歷了從狂熱、失望到資金削減的過程(例如歷史上的鐵路大開發以及網路泡沫),但是人工智慧的問題更加突出。這種模式已經發生過許多次了:
1966 年:機器翻譯的失敗;
1970 年:放棄人工智慧聯接主義(connectionism) ;
1971~1975 年:美國國防部高階研究計劃局(DARPA) 對卡耐基梅隆大學語音理解研究專案的失望;
1973 年:萊特希爾(Lighthill)人工智慧評估報告(Lighthill Report)發表之後,英國對人工智慧研究資助的大幅削減;
1973~1974 年:DARPA 削減對人工智慧學術研究的資助;
1987 年:Lisp 機市場崩潰;
1988 年:戰略計算規劃(the Strategic Computing Initiative) 取消了進一步資助人工智慧的計劃;
1993 年:專家系統慢慢跌入低谷;
1990 年代:第五代計算機專案的原始目標黯然淡出視野,以及被牽累迄今的人工智慧的壞名聲。
人工智慧經歷的最糟糕的時間段是1974~1980 年和1987~1993 年。有時人工智慧寒冬指的就是兩者之一(或兩者的某個時間段)。”

寒冬常常緊跟著過度的樂觀主義,例如西蒙(Simon)在文獻中提到的:

“在不久的未來——不會超過25年——我們將會有技術能力用機器來代替機構中的任何人類功能。而且,我們將充分掌握人類認知過程及其與人類情感、態度和價值觀的互動過程的理論,這些理論將會被實驗所證實。”

如今,比起第二季人工智慧寒冬,我們變得更有信心。15 年低枝果實的採摘已經取得了相對穩定的成果,也獲得了相對穩定的資助,至少比人工智慧寒冬的形勢樂觀很多。

皮爾斯、喬姆斯基和明斯基

毋庸諱言,我們所反抗過的偉大的理性主義者如皮爾斯、喬姆斯基和明斯基(Pierce, Chomsky and Minsky, 以下簡稱PCM),對人工智慧領域的現狀不會感到滿意。當然,另一方面,今天此領域的領軍人物大多也不樂意看到PCM 理性主義的復興。一位領域的帶頭人聽說我在寫這篇文章,譏諷道:“皮爾斯對我們現在有什麼意義?”PCM 的觀點在當年就飽受爭議,現在依然如此,因為它們導致一些領域包括語音、機器翻譯和機器學習多次進入了嚴重的資金寒冬。

本文主要感興趣的是PCM三位大師理性主義的共同主線。不過也必須指出,這三位大師的聲音並不完全一致。在資訊理論方面他們有很大分歧。皮爾斯對夏農和喬姆斯基二位均大加讚佩,儘管喬姆斯基對夏農在資訊理論方面的許多工作持反對意見。很顯然,這些觀點並不能清楚地劃分成不同學派(例如理性主義和經驗主義),學派之內並非完全一致,學派之間也不是處處相異。

關於智慧亦有很多不同意見。明斯基是人工智慧的創始人之一,而皮爾斯一直是直言不諱的批評者之一。他說:所謂人工智慧真乃愚蠢之極。皮爾斯反對任何試圖接近人類智慧的東西,當然包括人工智慧,也包括機器翻譯和語音識別。皮爾斯主持了著名(或者說是臭名昭著)的語言自動處理諮詢委員會(Automatic Language ProcessingAdvisory Committee, ALPAC) 報告。這一報告直接導致了機器翻譯的資金寒冬[27]。皮爾斯也曾為《美國聲學學會會刊》(JASA ) 撰寫富有爭議的通訊“語音識別往哪裡去”(Whither Speech Recognition?),給語音識別研究的資金造成令人寒心的困境。

本文重在回顧他們的共同主線,而不是他們的分歧。PCM 對當年流行現今復興的一系列經驗主義方法,均提出過挑戰。他們的反對意見對於許多當今流行的方法都有影響,包括模式匹配、機器學習(線性分離機)、資訊檢索(向量空間模型)、語言模型(N 元文法模型)和語音識別(隱式馬爾可夫模型(hidden Markov models, HMMs) 以及條件隨機場(conditional random fields, CRFs))。

學生們需要學會如何有效地使用流行的近似方法。大多數近似方法基於簡化的假設,這些假設在多數情況下有用,但並非萬能。例如,N 元文法能捕捉許多依存關係,但當依存範圍超過n個詞距離的時候,N 元文法則無能為力。同理,線性分離機在很多情況下可以區分正例和反例,但對無法線性區分的樣例自然無效。許多這類限制顯而易見(由其本性所決定),但即便如此,相關的優劣爭論有時仍然很激烈。有時候,爭論的某一方不再被寫進教科書,逐漸被遺忘,只能期待下一代學者去重新發現或復興。

喬姆斯基論述了N 元文法的侷限,明斯基論證了線性分離機的侷限。也有學者對於其他近似方法的種種侷限提出看法。例如,圖基(Tukey) 教導學生如何有效使用迴歸演算法[34]。他鼓勵學生測試各種正態假設的偏離現象。離群點(outliers) 是迴歸演算法常見的麻煩來源,正如偏離直線的彎曲殘差(bowed residuals)。很多人提出了種種繞行的補救方案。一個常見的手段是對資料做非線性變換,如對數變換。這些技巧把問題轉化為另一個問題,使其偏離假定的麻煩有所減少。

喬姆斯基的反對意見

如前所述, 喬姆斯基指出N 元文法不能捕捉遠距離依存關係。雖然現在回想起來似乎是顯然易見的,然而在當時,夏農-麥克米蘭- 佈雷曼熵定理(Shan-non-McMillan-Breiman theorem)令人非常興奮,對這條定理的解釋是:在極限條件下,只要稍加制約,N 元文法模型足以捕捉字串的所有資訊(譬如英語的句子)。喬姆斯基認為,在極限條件下這條定理也許是正確的,但是N 元文法模型遠遠不是能概括許多語言事實最簡潔的模型。在實際系統中,我們往往必須將N 元文法嚴格限制在某個(小的)固定的值k 上(例如三元或許五元)。這種限長的N 元文法模型系統可以捕捉到很多語法關係一致性方面的現象,但並非全部。

我們應該將這場論辯教給下一代學者,因為他們可能將不得不比我們更加認真地對待喬姆斯基的反對意見。我們這代人很幸運,可以摘取到大量的低枝果實(也就是那些可以用較短N 元文法捕捉到的語言現象)。但是,下一代學者將沒有這麼幸運,因為在他們退休之前,那些捕捉得到的語言事實大多將被捕捉已盡,因此,他們很可能將不得不面對那些簡單N 元近似方法無法處理的語言現象。

中心巢狀論(Center-Embedding)

喬姆斯基不僅反對N 元文法模型,也反對有限狀態(finite state) 方法,其中包括很多目前流行的方法,如隱式馬爾可夫模型和條件隨機場。

有限狀態方法超越了N 元文法,它不僅可以捕捉一切N元文法可以捕捉到的語言現象,而且可以捕捉超越N 詞距離的語法依存關係。例如,下列文法表現了主謂在數上一致的關係,名詞和動詞應該一致,二者同為單數(sg) 或者同為複數(pl)。這樣的文法可以捕捉超過N 詞距離的依存關係。

S → Ssg
S →Spl
Ssg → NPsg VPsg
Spl → NPpl VPpl
NPsg → … Nsg …
NPpl → … Npl …
VPsg → … Vsg …
VPpl → … Vpl …

最大的問題是,此文法是否需要無限的記憶體。為了使這場辯論嚴謹,喬姆斯基引入中心巢狀的概念,並建立了現今被稱作喬姆斯基層級體系(Chomsky hierarchy)的理論。

喬姆斯基層級體系不僅在語言學,在其他許多領域,例如電腦科學,也具有非凡的影響力。克努特(Knuth) 坦承他在1961 年的蜜月期間讀到喬姆斯基的文章,發現它是如此“奇妙的事情:在這個語言的數學理論中,我可以感受到一個計算機程式設計師的直覺”。

喬姆斯基指出,喬姆斯基層級體系與相應的生成能力之間具有一種簡單的對應關係:

型別0 > 型別1 > 型別2 >型別3

遞迴可列舉文法 > 上下文有關文法 > 上下文無關文法 > 正則文法

特別是上下文無關文法可以涵蓋並超越正則文法;有一些需要無限記憶體(棧)所做的事情,有限記憶體就做不到。喬姆斯基的論證是,中心巢狀是上下文無關與有限狀態之間的關鍵區別。也就是說,當(且僅當)一個文法具備中心巢狀能力,它才需要無限記憶體(棧)。否則就可以用有限記憶體(有限狀態機)處理。

更正式地講,如果一個文法中具有一個可以生成形如xAy的非終結節點A,其中x 和 y 均為非空,那麼這個文法就是中心巢狀。如果x 或 y 為空,則可以得到較簡單的左杈或右杈的巢狀。左杈巢狀和右杈巢狀均可在有限記憶體(有限狀態機)中處理,而不像中心巢狀那樣需要無限記憶體(棧)。

中心巢狀的一個簡單例子是一個括號巢狀的文法:

< expr > → (< expr >)

括號巢狀文法是中心巢狀的一個特殊案例,其中 x 是左括號,y 是右括號。一個棧結構可以很容易地記錄左括號與右括號之間的遠距離依存關係,但這需要無限的記憶體。最大的問題是有限記憶體是否可以處理括號巢狀文法。喬姆斯基證明這是不可能的。更一般的表述是,有限狀態方法無法捕捉中心巢狀。
喬姆斯基用下列樣例論證英語為中心巢狀語言,因此超越了有限狀態方法(如隱式馬爾可夫模型)的捕捉能力。喬姆斯基假定英語具有一個非終結節點 S(代表句子或從句),其自生成的時候在它的左右兩側可以新增非空內容,如下所示:
S → If S, then S.
S → Either S, or S.
S → The man who said that S, is arriving today.
關於中心巢狀的語言事實一直存在爭論。本文審閱者之一反駁中心巢狀所用的幾點論證,我當年在我的碩士論文中也提過類似的質疑。語料庫中很難找到超過兩層或三層的中心巢狀。不過,喬姆斯基的說法並非沒有道理。想要描述上述語言事實,採用允許任意中心巢狀的文法較之採用僅有一兩層中心巢狀的文法可能更容易和簡潔。

到目前為止,N 元文法和有限狀態方法等近似模型足夠我們使用。雖然這些近似模型都有其明顯侷限性,但迄今難以找到更有效的替代方法。嘗試捕捉不常見的遠距離關係也許可以處理一些不常見的邊緣案例,但它們帶來的問題往往比解決的問題要多。工程師們發現,處理好常見的短距離依存關係比處理不太常見的遠距離依存關係更為重要。至少,這是我們這一代人的體驗。

儘管如此,我們還是應該為下一代學者做好準備,使他們有可能比我們做得更好。我們應該教給下一代認識目前比較流行的各種方法的長處和短處。他們需要了解我們所知道的最成功的近似方法,但他們也需要了解其侷限性。下一代學者很可能會找到改進 N 元文法的辦法,甚至可能發現超越有限狀態的方法。

明斯基的反對意見

明斯基和帕佩特表明,感知機(更廣泛地說是線性分離機)無法學會那些不可線性分離的功能,如異或(XOR) 和連通性(connectedness)。在二維空間裡,如果一條直線可以將標記為正和負的點分離開,則該散點圖即線性可分。推廣到n 維空間,當有n -1 維超平面能將標記為正和負的點分離開時,這些點便是線性可分的。

判別類任務

對感知機的反對涉及許多流行的機器學習方法,包括線性迴歸(linear regression)、logistic 迴歸(logistic regression)、支援向量機(SVMs) 和樸素貝葉斯(Naive Bayes)。這種反對意見對資訊檢索的流行技術,例如向量空間模型 (vector space model) 和概率檢索(probabilistic retrieval) 以及用於模式匹配任務的其他類似方法也都適用,這些任務包括:
詞義消歧(WSD):區分作為“河流”的bank 與作為“銀行”的bank。
作者鑑定:區分《聯邦黨人文集》哪些是漢密爾頓(Hamilton)寫的,哪些是麥迪遜(Madison)寫的。
資訊檢索(IR) :區分與查詢詞相關和不相關的文件。
情感分析:區分評論是正面的還是負面的。
機器學習方法,比如樸素貝葉斯,經常被用來解決這些問題。例如,莫斯特勒(Mosteller) 和華萊士(Wallace) 的鑑定工作始於《聯邦黨人文集》,共計85篇文章,其作者是麥迪遜、漢密爾頓和傑伊(Jay)。其中多數文章的作者是明確的,但有十幾篇仍具爭議。於是可以把多數文章作為訓練集建立一個模型,用來對有爭議的檔案做判別。在訓練時,莫斯特勒和華萊士估算詞彙表中的每個詞的似然比:

Pr(word|Madison)/Pr(word|Hamilton)。對有爭議的文章通過文中每個詞的似然比的乘積打分。其他任務也使用幾乎相同的數學公式,如表2 所示。近來,諸如 logistic 迴歸等判別式學習方法正逐步取代如樸素貝葉斯等生成式學習方法。但對感知機的反對意見同樣適用於這兩類學習方法的多種變體。

停用詞表、詞權重和學習排名

雖然表2 中4個任務的數學公式類似,但在停用詞表(stoplist)上仍有重要的區別。資訊檢索最感興趣的是實詞,因此,常見的做法是使用一個停用詞表去忽略功能詞,如“the”。與此相對照,作者鑑定則把實詞置於停用詞表中,因為此任務更感興趣是風格而不是內容。

文獻中有很多關於詞權重的討論。詞權重可以看作是停用詞表的延伸。現今的網路搜尋引擎普遍使用現代的機器學習方法去學習最優權重。學習網頁排名的演算法可以利用許多特徵。除了利用文件特徵對作者寫什麼進行建模外,還可以利用基於使用者瀏覽記錄的特徵,來對使用者在讀什麼建模。使用者瀏覽記錄(尤其是點選記錄)往往比分析文件本身資訊量更大,因為網路中讀者比作者多得多。搜尋引擎可以通過幫助使用者發現群體智慧來提升價值。使用者想知道哪些網頁很熱門(其他和你類似的使用者在點選什麼)。學習排名是一種實用的方法,採用了相對簡單的機器學習和模式匹配技術來巧妙地應對可能需要完備人工智慧理解(AIcomplete understanding) 的問題。

最近有部落格這樣討論網頁排名的機器學習:

“與其試圖讓計算機理解內容並判別文件是否有用,我們不如觀察閱讀文件的人,來看他們是否覺得文章有用。

人類在閱讀網頁,並找出哪些文章對自己有用這方面是很擅長的。計算機在這方面則不行。但是,人們沒有時間去彙總他們覺得有用的所有網頁,並與億萬人分享。而這對計算機來說輕而易舉。我們應該讓計算機和人各自發揮特長。人們在網路上搜尋智慧,而計算機把這些智慧突顯出來。”

為什麼當前技術忽略謂詞

資訊檢索和情感分析的權重系統趨向於專注剛性指示詞(rigid designators)(例如名詞),而忽略謂詞(動詞、形容詞和副詞)、強調詞(例如“非常”)和貶義詞(例如“米老鼠(Mickey mouse)” 和“ 破爛兒(rinky dink)”)。其原因可能與明斯基和帕佩特對感知機的反對有關。多年前,我們有機會接觸MIMS 資料集,這是由AT&T 話務員收集的評論(建議與意見)文字。其中一些評論被標註者標記為正面、負面或中性。剛性指示詞(通常是名詞)往往與上述某一類標記(正面、負面或中性)緊密關聯,但也有一些貶義詞標記不是正面就是負面,很少中性。

貶義詞怎麼會標記為正面的呢?原來,當貶義詞與競爭對手相關聯的時候,標註者就把文件標為對我方“正面”;當貶義詞與我方關聯的時候,就標註為對我方“負面”。換句話說,這是一種異或依存關係(貶義詞XOR 我方),超出了線性分離機的能力。

情感分析和資訊檢索目前的做法不考慮修飾成分(謂詞與論元的關係,強調詞和貶義詞),因為除非你知道它們在修飾什麼,否則很難理解修飾成分的意義。忽視貶義詞和強調詞似乎是個遺憾,尤其對情感分析,因為貶義詞顯然表達了強烈的意見。但對於一個特徵,如果你不知道其正負,即使強度再大也沒什麼用。

當最終對謂詞- 論元關係建模時,由於上述異或問題,我們需要重新審視對線性可分的假設。

皮爾斯的反對意見

比起明斯基和喬姆斯基,皮爾斯在時下的教科書上更少提到,儘管皮爾斯作為ALPAC 委員會主席以及著名的“語音識別向何處去”一文的作者對本領域有深遠影響。無論從終結資助還是從文章的引用率看,皮爾斯對該領域的衝擊力是如此之大,真不明白現代教科書為何如此冷待皮爾斯。原因也許在於,比起明斯基和喬姆斯基,皮爾斯的批評“麻煩”更大。很多學者試圖迴應他的批評,但幾乎沒有任何迴應能像他原來的批評那樣有力和值得一讀。

皮爾斯一生碩果累累,他開發了脈衝編碼調製(pulse code modulation, PCM),一種與當今WAVE 文件格式緊密相關的語音編碼方法,而WAVE 是一種在個人計算機上儲存音訊檔案的流行格式。此外,皮爾斯在真空管領域的研究亦成就卓著,但他又帶領團隊發明了電晶體,使真空管很快消亡。皮爾斯的研究工作也涵蓋衛星領域,後來他作為貝爾實驗室的研究副總裁,在把衛星研究轉化成商業應用上發揮了關鍵作用,成功開發了Telstar 1,這是衛星首次在電信領域的商業應用。

總之,皮爾斯是一位具有非凡成就的頂級技術執行官。與他爭辯的另一方根本無法與他相提並論,其中包括一些可能會被拒授終身教職的初級教職人員。這是一場不公平的論戰。但即便如此,也沒有理由忽視他對領域的貢獻,哪怕這些貢獻給我們帶來諸多“麻煩”。

ALPAC 報告與“語音識別向何處去”都非常值得一讀。網上很容易找到 ALPAC 報告的原文,但其篇幅較長。如果讀者時間有限,建議先從閱讀“語音識別向何處去”開始,因為這篇通訊言簡意賅,觀點明晰。短短兩頁的通訊基本上論及兩條批評意見:
系統評測:皮爾斯反對用演示來評測系統,也反對現今仍流行的各種系統評測方法。“即使給出了統計資料,語音識別的成功與否還是很難測量。總體而言……當……時對於……系統可以達到 95% 的準確率。在……情況下,效能會急遽下降。很難鑑定這種效能的語音識別系統能否成為實用的、經濟合理的應用產品。”
模式匹配:皮爾斯反對現今仍流行的模式匹配技術(如機器學習和語音識別),斥之為巧妙的欺騙:“與科學相比由於更容易取巧而更快成功”。
模式識別批判

皮爾斯以魏岑鮑姆(Weizenbaum)開發的伊莉莎(ELIZA) 程式作為案例來解釋“巧妙的欺騙”。雖然伊莉莎很明顯並不“智慧”,但它或許可以通過圖靈測試。伊莉莎批判從此成為對那些看上去比實際能力要強的程式的標準批判。維基百科對“伊莉莎效應”的定義如下:

“在電腦科學中,所謂的伊莉莎效應,指的是下意識地假設計算機與人類的行為相似的一種趨勢。從特定形式上看,伊莉莎效應只是指‘人們閱讀被計算機串起的符號序列(特別是單詞),往往讀出了這些符號並不具備的意義’。更一般地,伊莉莎效應描述的是這樣一種情形,僅僅依據系統輸出,使用者就把計算機系統理解為具有‘其軟體控制(輸出)不可能實現的內在素質和能力’,或者,‘假設(輸出)反映了比實際更大的因果關係’。無論是在特定還是一般形式上,甚至當系統的使用者已經知道系統產生的輸出是預定不變的,伊莉莎效應都會顯著出現。從心理學觀點來看,伊莉莎效應源於一種微妙的認知失調,一方面,使用者意識到程式編制的侷限性,另一方面,他們對程式的輸出結果依然盲信。伊莉莎效應的發現是人工智慧的一個重要進展,說明利用社交工程原理,而不是顯式程式設計,也可以通過圖靈測試。”

魏岑鮑姆在意識到他的伊莉莎程式讓公眾如此信服後,他自己反而成為人工智慧的強烈反對者。以下是從他的著作《難以理解的程式》(Incomprehensible Programs ) 中的一個章節摘錄的:

“這兩個程式(MACSYMA和DENDRAL) 與其他大多數人工智慧程式完全不同,它們牢牢建立在深厚的理論之上……計算機當然還有其他許多重要的、成功的應用。例如,計算機可以操控整個石油精煉廠的流程,可以導航飛船以及監測並在很大程度上操控飛船內的環境,以便宇航員執行任務。這些程式依賴於數學控制理論和牢固確立的物理理論。這種以理論為基礎的程式具有極其重要的優勢,一旦程式走偏,監測人員就能發現它們的效能不符合理論的要求,從而可以用理論幫助診斷失敗的原因。

但是, 大多數現有的程式……不是以理論為基礎的……它們多是探索式的……採用的是在多數預見情況下顯得‘可行’的策略……我自己的程式伊莉莎正是這種型別。伍諾格拉德(Winograd)的語言理解系統也是……紐厄爾(Newell) 和西蒙的GPS20 也是如此。”

魏岑鮑姆繼續爭辯道,程式理應易於理解,並建立在堅實的理論基礎之上,這種觀點皮爾斯想必也會同意。

皮爾斯關於“巧妙的欺騙”的提法批評了包括人工智慧、語音識別以及模式識別(也包括大部分現代機器學習)的很多領域用演示來驗證系統的做法。

“前述討論適用於模式識別的各個領域,其應用作為練習留給讀者”。

模式識別有其優缺點。優點是,模式識別可以巧妙應對許多科學難題,在實際應用中取得進步。但是這一優勢同時也是其缺點。短期的取巧分散了領域的精力,無法顧及真正有意義的長遠目標。

很多工程任務與語音合成一樣有兩類研究:一類是實用的工程方法(例如銜接合成和磁帶拼接),另一類是雄心勃勃的科學計劃(如模擬人類發音的合成)。一般而言,實用的方法更有可能在短期內產生較好的結果,但學術界也激勵更有前途的科學路線。對於尚未解決的重大科學問題,如果我們直接研究它們,而不是投機取巧,我們會有更好的機會取得進展。話雖這麼說,如果你在工業界領導一個語音合成產品,為了在預算內按時按質交付產品,採用任何工程手段和技巧都是題中應有之義。

迴應

針對“語音識別向何處去”曾有很多回應,但是多數迴應都沒能有效應對上面提到的兩條主要批評意見:
目前在論文發表時所要求的系統評測方法究竟有何意義?
與科學相比,模式匹配的意義何在?
羅(Roe)和威爾彭(Wilpon)爭辯說,在“語音識別向何處去”提出後的25 年中,領域的發展已經把所謂“無用”的努力演變為商用現實。他們的文章開頭介紹了隱式馬爾可夫模型等流行方法,這些方法基於皮爾斯所反對的模式匹配技術。接著提到目前常用的評測方法。評測旨在展示模式匹配技術的有效性,然而評測帶來的結論正如皮爾斯歸納描述的那樣:“難以度量”。

“在實驗室條件下,語言識別器對於聲音的模式匹配相當準確。然而,在‘真實世界’的條件下,錯誤率會高出很多”。

ALPAC報告

相當長的ALPAC 報告提出了很多反對意見,其中許多批評意見令人尷尬,也很難迴應。報告的結論部分提到一些好訊息:

“如今仍有理論語言學家對實證研究或計算都不感興趣,也有應用語言學家對十年來的理論進展無動於衷,對計算機也很木訥。但是,與以往任何時候相比,都有更多的語言學家嘗試把微妙的語言理論與更豐富的資料相結合,他們中幾乎所有人,無論在哪個國家,都渴望計算機的支援。前一代人需要一輩子做的工作(譬如建立對照語庫、詞彙表、淺層文法),如今藉助計算機幾個星期即可完成(下一年大概只需要幾天)。在對於作為人類交流工具的自然語言的理解方面,人類邁出了萬里長征的第一步。”

但好訊息隨後緊接著就是不那麼好的訊息 :

“ 但是,我們還沒有簡單易用並廣為人知的計算機處理語言資料的好方法。”

作為迴應,斯蒂德曼(Steedman)將我們的研究領域與物理學領域做了對比。他指出物理界並沒有被類似於ALPAC 的報告所困擾:“沒人去告訴周圍的物理學家該做什麼。”斯蒂德曼建議,如果我們更自律,並避免在公共場合過度渲染,我們的領域也許會處於更好的狀態。

我們其實沒必要羨慕物理學領域的狀態,以此排斥ALPAC報告。斯蒂德曼的迴應不僅沒有解決問題,而且事實上,物理學在學術界根本就不處於一個令人羨慕的位置。曾經有一段時間,物理學確實處於相對良好的狀態,但那是很久以前的事情了。物理學的冬天已經持續太久,以至於許多人離開了物理學領域。曾經的物理學家們對許多領域做出了貢獻,包括我們領域的幾個方向,例如機器翻譯和機器學習等。至於過度渲染,物理學不比我們少。

甚至連ALPAC 報告也指出,計算語言學比物理學有許多優勢:

“我們看到計算機為語言學家帶來了一系列的挑戰、視角和機會。我們相信,這些可與粒子物理面臨的挑戰、問題和視界相當。毫無疑問,語言的重要性不亞於任何其他現象。而且計算語言學所需要的工具成本,比起需要數十億伏加速器的粒子物理學少得多了。”

哈欽斯(Hutchins)在ALPAC報告30 週年紀念時在《機器翻譯國際新聞》(MT News International) 中題目為《ALPAC :著名(抑或臭名昭著)的報告》的文章中,總結道:

“ALPAC 對機器翻譯持懷疑態度是有一定道理的:當時機器翻譯的質量無疑非常糟糕,似乎確實沒有正當理由獲得那麼多的資助。報告中也正確地指出需要研製計算機輔助翻譯,並強調計算語言學需要更多的基礎研究。然而,需要指責的是……”

哈欽斯繼而批評ALPAC 報告的觀點太過以美國為中心,機器翻譯問題本應在更廣闊的全球語境中來考慮。既然基調如此嚴肅,他對以美國為中心的批評就顯得相對單薄。如果從美國角度看機器翻譯技術質量不好,費用昂貴,難道換一個角度就會對他國合適?

事實上,ALPAC 報告之所以被認為臭名昭著,是因為它的懷疑論直接導致了機器翻譯的資金寒冬,尤其是在美國方面。然而,報告(第34 頁)實際上建議在兩個不同方向上增加經費開支:
對於語言學和計算語言學的長期的基礎學術研究,以及
對於實用的、可以短期奏效的提高翻譯質量的工作。
第一類基礎研究應該以其科學價值為基礎,經過同行評議,而評估第二類應用程式應該著重於實用的指標:速度、成本和質量。

皮爾斯的這兩個建議凸顯出他的兩個不同側面,正由於這種兩面性使得皮爾斯能夠同時認同喬姆斯基和夏農那樣兩種不同的立場。一方面,皮爾斯是基礎科學的堅定支持者。皮爾斯反對任何將科學扭曲成其他東西(例如應用程式)的企圖,以及試圖以誤導性演示和盲目的指標(如今天所例行的各種評估辦法)歪曲科學的發展。另一方面,皮爾斯也有實用的一面,他在語音編碼、真空管、電晶體和通訊衛星等領域所取得的非凡成就就是證明。他是應用型工作強有力的支持者,但所用的規則與基礎研究完全不同,比如強調從商業案例出發。應用型工作要按應用型工作來評估(基於商業標準),而科學必須按科學的標準來評估(基於同行評審)。

如果皮爾斯今天還活著,他會被學術界的現狀深深困擾。太多的資金投入到了模式匹配技術和數值評估上,干擾了他認定的作為核心科學問題的學術發展。

從更積極的方面看,皮爾斯的應用一面應該會對谷歌的商業成功留下深刻印象,尤其是在搜尋方面。儘管如此,谷歌的邊緣業務如語音識別和機器翻譯是否可以稱作成功,從他的角度應該還有疑問。雖然我們有理由對這些領域抱有希望,像皮爾斯這樣的懷疑論者會覺得,比起過去的幾十年研發的鉅額投資,機器翻譯和語音識別的應用成就並不相稱。作為一個合理的投資回報,現在的語音識別和機器翻譯應該產生一個殺手鐗級的應用,使得幾乎每個人每天都離不開它,就像當年AT&T 發明的電話,或者像微軟Windows 系統或谷歌搜尋一樣。谷歌在搜尋方面的核心業務已經實現了這個理想,也許有一天他們的語音和翻譯等邊緣業務也能最終達到這一目標。

皮爾斯能給今天的我們提供什麼?迄今為止,該領域已經做得很好,採摘了不少低枝果實。在有很多果實容易採摘的好時光裡,我們自然應該充分利用這些機會。但是,如果這些機會逐漸枯竭,我們最好還是遵循皮爾斯的教誨,認真面對核心科學的挑戰,而不是繼續尋找不復存在的容易採摘的果實。

無視歷史註定要重蹈覆轍

在大多數情況下,機器學習、資訊檢索和語音識別方面的實證復興派簡單地無視PCM 的論辯,雖然在神經網路領域,感知機附加的隱藏層可以看作是對明斯基和帕佩特批評的讓步。儘管如此,明斯基和帕佩特對他們所著的《感知機》出版20 年以來領域進展之緩慢深表失望。

“在準備這一版時,我們本來準備‘把這些理論更新’。但是,當我們發現自本書1969 年第一次出版以來,沒有什麼有意義的進展,我們認為保留原文更有意義……只需加一個後記即可……這個領域進展如此緩慢的原因之一是,不熟悉領域歷史的研究人員繼續犯別人以前已經犯過的錯誤。有些讀者聽說該領域沒有什麼進步,可能會感到震驚。難道感知機類的神經網路(新名稱叫聯接主義)沒有成為熱烈討論的主題嗎?……當然不是,該領域存在很多令人感興趣的問題和討論。可能確實也有些現在的發現也會隨著時間逐漸顯出重要性。但可以肯定的是,領域的基礎概念並沒有明顯改變。今天令人興奮的問題似乎與前幾輪大同小異……我們的立場依然是當年我們寫這本書時的立場:我們相信這個領域的工作是極為重要和豐富的,但我們預計其發展需要一定程度的批判性分析,可那些更富浪漫精神的倡導者卻一直不願意去做這種分析,也許因為連通主義的精神似乎變得與嚴謹分析南轅北轍。

多層網路並不比感知機更有能力識別連通性。”

計算語言學課程的缺陷

正如上面明斯基和帕佩特指出的,我們不斷犯同樣錯誤的部分原因與我們的教學有關。辯論的一方在當代計算語言學教科書中已被遺忘,不再提及,只能靠下一代人重新認識和復原。當代的計算語言學教科書很少介紹PCM 三位前輩。在汝拉夫斯基(Jurafsky) 和馬丁(Martin) 編著的教科書以及曼寧(Manning) 等編著的兩套教科書中根本沒有提及皮爾斯。三本教科書中只有一本簡要提起明斯基對感知機的批評。剛剛進入此領域的學生也許意識不到所謂“相關學習演算法”包含了很多當今非常流行的方法,如線性迴歸和logistic迴歸。

“一些其他的梯度下降演算法(gradient descent algorithms) 有類似的收斂定理,但是在大多數情況下,收斂只能達到區域性最優。……感知機收斂能達到全域性最優是因為它們從線性分離機這樣一類比較簡單的模型中選擇分類器。很多重要的問題是線性不可分的,其中最著名的是異或問題。……決策樹演算法可以學習解決這類問題,而感知機則不能。研究人員在對感知機最初的熱情[29]消褪以後,開始意識到這些侷限性。其結果是,對感知機及相關學習演算法的興趣很快消褪,此後幾十年一直一蹶不振。明斯基和帕佩特的論文《感知機》通常被看作是這類學習演算法開始消褪的起點。”

曼寧等人的2008 版教科書中有簡短的文獻指向明斯基和帕佩特1988 年的論文,稱其對感知機有不錯的描述,但並未提及他們的尖銳批評:

“對文中提到但本章未進行細述的演算法,感興趣的讀者可以參閱以下文獻:神經網路方面的畢夏普(Bishop) 、線性和logistic迴歸方面的黑斯蒂(Hastie) 等人以及感知機演算法方面的明斯基和帕佩特等的論文。”

基於這樣的描述,學生可能會得出錯誤印象,以為明斯基和帕佩特是感知機演算法(以及當今流行的線性和logistic 迴歸相關方法)的支持者。

畢夏普明確指出,明斯基和帕佩特絕不是感知機和神經網路的讚許者,而且把它們認作“不正確的構想”予以排斥。畢夏普把神經網路在實際應用中的普及看作是對明斯基和帕佩特上述批評意見的反擊證明,認為並非如他們所說的那樣“沒有多少改變”、“多層網路並不比感知機更有能力識別連通性”。

當代教科書應該教給學生認識神經網路這類有用的近似方法的優點和缺點。辯論雙方都大有可言。排除任何一方的論證都是對我們的下一代不負責任,尤其是當其中一方的批評是如此的尖銳,用到“不正確的構想”和“沒有多少改變”這樣的說法。

喬姆斯基比皮爾斯和明斯基在當代教科書中被提及得多一些。曼寧和舒茲(Schütze) 的教科書引用喬姆斯基的論文10次,汝拉夫斯基和馬丁的教科書的索引中共有27 處引用喬姆斯基的論文。第一本書中較少引用是因為它專注於一個相對狹窄的話題——統計型自然語言處理。而第二本教科書涉及面廣泛得多,包括音韻學和語音。因此,第二本書還引用了喬姆斯基在音韻學方面的工作。

兩本教科書都提到喬姆斯基對有限狀態方法的批評,以及這些批評在當時對經驗主義方法論的抨擊效果。但是話題迅速轉移到描述這些方法的復興,而對這一復興的論辯、動因及其對目前實踐和未來的影響的討論則相對較少。

“由喬姆斯基1956 年的論文開始的一系列極具影響力的論文中,包括喬姆斯基1957 年的論文以及米勒(Miller) 和喬姆斯基1963 年的論文,喬姆斯基認為,‘有限狀態的馬爾可夫過程’雖然是可能有用的工程探索,卻不可能成為人類語法知識的完整認知模型。當時的這些論辯促使許多語言學家和計算語言學家完全脫離了統計模型。

N 元模型的迴歸開始於耶利內克(Jelinek)、默瑟(Mercer)、巴爾(Bahl) 等人的工作……”

兩本教科書對N 元文法的討論都是從引用其優缺點開始:

“但是必須認識到,無論怎樣解讀,‘一個句子的概率’都是一個完全無用的概念……。”

“任何時候,只要一個語言學家離開本研究組,識別率就會上升。”(弗雷德·耶利內克(Fred Jelinek),當時他在IBM 語音組,1988)

曼寧和舒茲是以這樣的引用開始討論的:

“統計的考量對於理解語言的操作與發展至關重要。”

“一個人對合法語句的產生和識別能力不是基於統計近似之類的概念。”

這種正反面觀點的引用確實向學生介紹了爭議的存在,但卻不能真正幫助學生領會這些爭議意味著什麼。我們應提醒學生,喬姆斯基反對的是如今極其流行的一些有限狀態方法,包括N 元文法和隱式馬爾可夫模型,因為他相信這些方法無法捕捉遠距離的依存關係(例如一致關係的限制條件和wh- 位移現象)。

喬姆斯基的立場直到今天仍然是有爭議的,本文審閱者之一的反對意見也佐證了這種爭議。我不希望站在這場辯論中的某一方。我只是要求應該教給下一代雙方的辯論。對於任一方,都不至於由於我們疏於教授而使他們需要重新“發現”。

計算語言學學生應該接受普通語言學和語音學的培訓

為了讓進入這行的學生對低枝果實採摘完後的情形做好準備,今天的教育最好向廣度發展。學生應該全面學習語言學的主要分支,如句法、詞法、音韻學、語音學、歷史語言學以及語言共性。我們目前畢業的計算語言學的學生在一個特定的較窄的子領域具有豐富的知識(如機器學習和統計型機器翻譯),但可能沒聽說過格林伯格共性(Greenberg’s universals)、提升(raising)、等同(equi)、 量詞轄域(quantifier scope)、 空缺(gapping)、孤島條件(island constraints) 等語言學現象。我們應該確保從事共指關係(co-reference) 研究的學生都知道成分統制(c-command) 和指稱相異(disjoint reference)。當學生在計算語言學會議上宣講論文的時候,他們應該已經瞭解形式語言學(formal linguistics) 對此問題的標準處理。

從事語音識別工作的學生需要了解詞彙重音(如文獻)。音韻學重音對於下游的語音和聲學過程具有各種各樣的影響。

圖3 “politics”and“political”的譜圖顯示有三個/l/同位音。在重音前後出現不同的音位變體。

語音識別目前沒有充分利用詞彙重音特徵是一個不小的遺憾,因為重音是語音訊號中較為突出的特性之一。圖3 顯示了最小對立體 (minimal pair)“ politics”和“political”的波形和譜圖。這兩個詞千差萬別,目前的技術著重於語音單位層面的區別:
“politics”以 –s 結尾,而“political”以-al 結尾。
與“politics” 不同,“political”的第一個母音是弱化的非重讀音節的母音(schwa)。
重音的區別更為突出。在諸多與重音有關的區別中,圖3 突出顯示了重音前與重音後/l/ 的音位變體之間的區別。另外還有對/t/ 音的影響。“politics”中 /t/是送氣音,但在“political”中卻是閃音。

目前,在語音單位層面,仍有大量低枝果實可以採摘,但這些工作終有完結之時。我們應該教給語音識別領域的學生有關音韻學和聲學語音學的詞彙重音知識,以便他們在目前的技術水平超越語音單位層面的瓶頸時依然遊刃有餘。由於重音存在超過三母音素的遠距離依存關係,重音方面的進展需要對目前流行的近似方法的長處與缺陷均有深入的理解。語音識別方面的基礎性進展,例如能有效使用重音,很可能要依賴於技術的根本性進步。

結論

學界前輩皮爾斯、喬姆斯基和明斯基曾經嚴重質疑過當年流行後來復活了的一些經驗主義方法。他們的反對意見涉及許多當代流行的方法,包括機器學習(線性分離機)、資訊檢索(向量空間模型)、語言模型(N 元文法)、語音識別(隱式馬爾可夫模型)和條件隨機場。

學生們需要學習如何有效地使用流行的近似模型。喬姆斯基指出了N 元文法的缺陷,明斯基分析了線性分離機的侷限性。許多侷限性很明顯(由自身演算法設計帶來的),但即便如此,對其支援與反對之間的爭辯有時仍然非常激烈。有時,其中一方的論點不會被寫進教科書,只有等到下一代人去重新發現和復興這些被遺忘的思想。我們應該鼓勵下一代學者充分了解辯論雙方的論據,即使他們選擇站在一方或另一方。

20 世紀90 年代,當我們復興經驗主義時,我們選擇了實用主義的理由來反對我們導師的觀點。資料從未如此豐富,我們能拿它做什麼呢?我們認為,做簡單的事情比什麼都不做要好。讓我們去採摘一些低枝果實。雖然三元模型不能捕捉到一切語言現象,但它往往比其他方法更有效。捕捉我們可以輕易捕獲的一致性事實,要比好高騖遠試圖捕捉更多語言事實而最終得到更少要好。

這些說辭在20 世紀90 年代有很大的意義,特別是學術界在前一波繁榮期提出了很多不切實際的期望。但是今天的學生在不久的將來可能會面臨一系列非常不同的挑戰。當大多數低枝果實採摘完畢,他們應該做些什麼呢?

具體就機器翻譯而言,統計方法的復興(例如文獻)由於實用主義的原因,始於採用有限狀態方法。但隨著時間的推移,研究人員已經越來越接受使用句法捕捉遠距離的依存關係,尤其是當源語與目標語缺乏平行語料庫,或者當兩種語言具有非常不同的詞序的時候(例如,從主謂賓詞序的語言(如英語)翻譯到以動詞收尾的語言(如日語))。展望未來,我們可以預料到機器翻譯的研究會越來越多地使用越來越豐富的語言學表達。同樣,很快也將有一天,重音將成為語音識別的重要依據。

既然計算語言學教科書不可能涵蓋所有這些內容,我們就應該與其他相關科系的同事合作,確保學生能接受到廣泛的教育,足以讓他們為所有可能的未來做好準備。

選自《中國計算機學會通訊》第9卷第12期。
本文譯自Linguistics issues in Language Technology, 2011; 6(5) K. Church 的“A Pendulum Swung Too Far”一文。
譯者:李維(美國網基公司首席科學家)唐天(美國網基公司首席首席科學家助理兼助理工程師)

編者按:本譯文首發於中國計算機學會通訊,也釋出於譯者部落格