NO IMAGE

1 計算機是怎樣識字的

1.1 從國際象棋人機大戰說起

教電腦識字:淺談漢字識別昊佑壽             www.chinaocr.net   OCR製作

1997年5月間,國際象棋棋王卡斯帕洛夫同由IBM公司華裔科學家譚崇仁和主設計人許峰雄博士負責研製的“深藍”計算機進行人機國際象棋比賽。這是棋王與計算機的第二次較量。第一次人機大戰時,卡斯帕洛夫以優異的戰績獲勝,在當時這是人們意料之中的事,“人為萬物之靈”嘛,怎麼會敗在計算機手下呢!因此這一次開戰之前,輿論界對棋王仍然看好,相信他能衛冕成功。

果然第一局卡斯帕洛夫勝。看來經過改進後的“深藍”依然不是棋王的對手。但是第二局形勢突變,“深藍”走了一步“怪招”,使棋王方寸大亂,敗下陣來,從而一撅不振,俯首稱臣。

“深藍”獲勝,棋王卡斯帕洛夫被拉下馬,這個訊息在全球科技界引起轟動。有的人甚至認為,這一事件標誌著計算機已具有、或將具有極高的智慧,以致有朝一日電腦將能控制人腦,使人類受某種“智慧機器”控制而處於被奴役的地位。

“深藍”的設計者譚崇仁和許峰雄在“深藍”獲勝之後,表示了相反的看法。他們於同年9月份來華訪問,在清華大學做了專題報告,介紹有關“深藍”的研製工作和今後計劃,並對上述問題發表了看法。他們認為:無論是人類使用石器的當初或是第一次工業革命的時候,都有人對於人類能否控制技術的發展提出過疑問,這些疑問都已不攻自破。現在提出的“電腦控制人腦”的擔心也是沒有根據的。他們說:“‘深藍’與卡斯帕洛夫的較量實際上是兩支專家隊伍的較量:‘深藍’的隊伍裡有國際象棋特級大師,卡斯帕洛夫的隊伍裡也有電腦專家。所謂人機大戰實際上還是人與人的較量。”譚崇仁和許峰雄兩位專家還指出,“深藍”之所以獲勝,主要依靠它具有極高的運算速度,能夠在規定時間內,計算幾十步棋;而棋王卡斯帕洛夫依靠他敏捷的大腦卻只能計算幾步棋。“根據美國教授Arpad Eto的研究,卡斯帕洛夫的棋力達到2800Eto等級,而精心設計的‘深藍’(即IBM的As/6000SP大規模多用途並行處理機)已經高於這一等級。……(1997年)5月“深藍”與卡斯帕洛夫下第一局時,其博弈能量並沒有調到最高值。在第一局負於卡斯帕洛夫後,專家們把‘深藍”的棋藝調高,在第二局中下出了令卡斯帕洛夫吃驚的‘妙招’,大大影響了世界棋王的情緒,為最終贏得比賽奠定了基礎。”(見《科技日報》1997年9月24日)由此可見,“深藍”的智慧是人賦予的,是“深藍”隊伍裡的國際象棋特級大師們,把棋藝授予“深藍”。“深藍”只是按照大師們所編制的程式,以極高的運算速度計算每一步棋的得失,決定最有利的著法而已。從本質上說,“深藍”並沒有什麼智慧,“甚至比最笨的人還笨。”它只是一種工具,在處理大量資料時比人腦好使。這好比一把尺子,比人能更準確地標示距離的長短,但它畢竟只是尺子而已。“深藍”與卡斯帕洛夫之戰不是人與電腦之戰,而是一群利用先進工具的專家跟不利用工具的棋王之戰。總而言之,“深藍”本身並沒有人類那種智慧,在這場所謂的“人機大戰”中獲勝,它所依靠的只不過是“算得快”的本領。

據報道,衛冕失敗的棋王還不服氣,希望與“深藍”再決雌雄。但“深藍”的設計者們卻無心再戰,見好就收。他們的意圖是,研究“深藍”的目的主要在於探索利用計算機並行處理方法解決問題的能力。並行處理方法在許多領域(例如導彈制導、藥物設計、物理學、生物機械學、軟體開發等等)都很有用。因此他們今後的研究重點將是超高效能運算機的應用,而不再是博弈了。

人機大戰引起的轟動和對“深藍”的評價到此可以畫上一個句號了。這裡讀者可能會提出一個問題:有的計算機能識字、讀書,是否和“深藍”不同,已經具有一定的智慧呢?要回答這個問題須先了解計算機識字的工作原理和過程,這正是本書所要討論的問題,下面將會詳細加以介紹。但是這裡我們可以先給出答案:能識字的計算機和“深藍”一樣,也是按照人們事先安排好的程式來認字的。因此可以說,目前的計算機還沒有像人類那樣的智慧,或者只能說,它只具有模擬或執行某些通常與人類智力有關的功能。通常把這種功能稱為人工智慧(Artificial Intelligence, AI)。研製、創造一種“類腦計算機”,使它具有類似人類的智慧,是科學家,特別是資訊科學技術工作者的理想或夢想,也是21世紀一個最富有挑戰性的課題。目前已有的計算機的“智慧”很差,有人說:“它比最笨的人還笨”!這個問題是否像“永動機”那樣不可能解決,現在還沒有科學的結論。但是如何使計算機具有更強的功能,能做更多跟通常人類智力有關的工作,則是完全可能的。現在我們已經教計算機能識字讀書,能聽、會寫,能辨別氣味、手勢等等,相信一定能讓它越來越聰明,這是沒有疑問的。

 

 

1.2 機器是怎樣識字的

機器認字的原理同我們查字典的方法很相似,機器中必須先有一本“字典”,機器認字時把要認識的字跟字典中所有的標準字元逐一比較,跟待識字元相同(或最相似)的標準字元,就是所需要的待識字元。

因此要讓計算機能夠識字,必須先在計算機中安裝一部“字典”。計算機中的字典通常叫做“特徵庫”或“模板庫”。

在機器中怎樣建立“字典”呢?這是這本小冊子所要討論的最主要的問題。

早在20世紀20年代,西方就有人研究字元自動識別的問題。有文獻可考的最早的機器字元識別系統是德國人G.Tausher的“閱讀機”,他的發明於1929年在德國獲得專利。美國人P.W.Handel也曾研製了類似的機器,叫做“統計機”,也獲得了美國的專利。當時還沒有像現在這樣高超的電子技術,但光學和機械製造業卻相當發達。因此他們採用光學和機械相結合的辦法:用機械方法事先製造所有字元的掩膜。識別時,當待識字元的字形和某一標準字元的掩膜重合時,照射到掩膜上的光線完全被待識字元所遮掩,因而沒有光線通過掩膜,對映到在它後面的用來顯示兩者匹配與否的光敏檢測器。利用這種辦法,機器就能自動識別印刷在紙上的字元。現在看來,這種閱讀機相當笨拙,但識別字元的原理卻具有普適意義。我們今天的光符閱讀機(OCR)基本上還是根據這種匹配原理來識別字元的。由於電子科學技術的飛躍發展,60年代以後,人們已不再採用機械的方法,而是採用電子技術特別是計算機來識別字元。近10多年來,計算機字元自動識別的研究已有很大的進展,國內外已有多種產品問世,並在社會各界廣泛應用。多年來科學家讓機器能“讀書識字”的理想已經基本上實現了。

圖1.1是機器認字的示意,其中的模板庫通常叫做特徵庫或字典。建立字典的方法是:先將標準漢字型檔中已知的漢字輸入計算機,逐一抽取能代表每一個字的特徵,組成特徵庫(模板庫)。這一過程叫做訓練或學習過程。機器認字時,</PGN0005.TXT/PGN>把待識漢字圖形輸入計算機後也抽取這個漢字的特徵,然後把它跟特徵庫中每一個標準特徵逐一比較,跟待識漢字特徵相同(或最相似)的標準漢字就判定是待識漢字。這一過程叫做識別過程。計算機所採用的識別特徵是決定系統效能的關鍵,如何選擇、提取特徵是本書的重點。這個問題下面將詳細討論。

1.3 漢字識別系統的分類

漢字識別系統通常分為手寫漢字識別系統和印刷漢字識別系統兩大類(圖1.2)。按輸入方式不同,手寫漢字識別又可分為聯機和離線兩種。聯機手寫漢字識別一般採用一塊專用的與計算機連線的書寫板,人在書寫板上書寫字元時,字元訊號即時直接輸入計算機。這種方法也叫做筆輸入方式,是一種實時輸入的方法。離線手寫字元系統用來識別寫在紙張上的字元,它同印刷字元識別一樣,需用光電轉換器(如掃描器或攝像機)把字元圖形變為電訊號,再輸入計算機進行識別。這種識別裝置有時叫做光符閱讀器(optical character reader),簡記為OCR。印刷的漢字和字元字形比較規範,識別比較容易,而手寫字元的字形變化很大,有的字甚至人也很難辨識,計算機識別就更難。本著從易到難的原則,本書將先討論聯機手寫漢字識別,再介紹離線印刷漢字識別,然後扼要介紹離線手寫漢字識別的問題。離線和聯機兩種方式在工作原理上是一樣的,但技術上有重要的區別,希望讀者注意。

1.4 對漢字識別系統的要求

漢字識別系統的作用是把漢字輸入計算機。因此,對系統的基本要求是:

①能識別一定數量的漢字及標點符號。

②具有足夠高的(正確)識別率和識別速度。從實用角度看:系統可靠性要高,價格要低廉,使用者使用方便等等。

漢字識別系統所能識別的字元類總數是系統設計的基礎和依據。這方面目前還沒有統一的規定。我國1980年頒佈的國家標準GB 2312-80《資訊交換漢字編碼字符集——基本集》(簡稱國標)第一級常用簡體漢字共3755個,第二級有3008個,共6763個。香港和臺灣省使用的繁體漢字有5401個,非常用繁體字有13094個。根據這些情況,目前我國研製的漢字識別系統的字量大體上分為三級:第一級主要包括國標第一級漢字3755個;第二級包括第一、二兩級漢字共6763個,或國標一級漢字3755個和繁體字5401個;第三級的字數可擴大至1萬個左右,包括國標兩級字和繁體字,但根據實際需要和可能適當增刪某些漢字,使之適合應用。此外實際文字還有標點符號、數碼和拼音文字等,在系統設計容量時也應考慮在內。

對(正確)識別率和識別速度的要求,也很難有一種統一的、嚴格的標準,主要根據實際應用的需要來確定。但是作為一種輸入手段,它的效能應該可以和其他輸入手段(如人工鍵入)相比擬。目前專業人員操作的漢字鍵入錯字率約為10-2~10-3的量級,鍵入速度最高達250字/分,平均速度約在50字/分。作為參考,這些指標應該是漢字識別系統必須達到的最低要求,在某些需要大量輸入的場合(如資料庫的建立),對識別系統效能的要求還應更高。

印刷漢字識別系統的識別率和印刷質量有密切關係。目前我國的印刷漢字識別系統,對於印刷質量很好的檔案,識別率可高達99%,一般印刷物也可達98%左右。手寫漢字的字形變化較大,正確識別比較困難,因而識別率較低:聯機手寫漢字識別系統的“首字(第一個字)識別率”一般在90%左右,離線識別率則低於90%。這樣的識別率不能滿足實用的要求,因而通常還採用“前十字識別率”來表示識別系統的效能。這種方法同鍵盤鍵入法相似,對某一個待識字進行識別時,計算機給出十個最可能的候選字,這些候選字中含有待識字的概率,叫做“前十字識別率”。在聯機手寫漢字識別時,使用者可以用滑鼠從這十個字中挑出待識字作為輸出。離線手寫漢字識別時,計算機可以把這十個字作為候選字,再用“單字識別”模組對這些候選字進一步加以判別,給出待識字。由於手寫字的字形變化很大,目前一般的離線手寫漢字的單字識別率都不高,大多在95%以下,難以廣泛應用。

計算機在對某一待識字進行識別時,有時難於作出判斷。對於這種待識字可以作“拒識”處理。在識別系統中採用對那些難以識別的字元加以拒識,可以降低系統的錯識率。在一些要求識別率很高的場合,採用這種辦法可以減少差錯。例如在郵局的信函分揀中,有的郵政編碼寫得很潦草,計算機辨認這種信函很容易出錯。對於這種信函先作“拒識”處理,然後再用人工分揀的辦法,可以保證該信函能正確地寄給收信人。

識別率、誤識率和拒識率是識別系統的三個效能指標,它們之和應該等於100%。

1.5 漢字的基本知識

漢字集合的字量大、字形複雜,這是漢字識別之所以十分困難的根本原因。為了使讀者對這個問題有更具體的瞭解,下面根據漢字集合的特點,介紹一些有關漢字的常識。

1)字量大

按我國文字工作委員會頒佈的漢字基本集GB 2312-80的標準,第一級漢字為3755個,第二級為3008個,總計為6763個。因此我國的漢字識別系統至少應能識別最常用的3755個漢字,如果考慮系統還能識別次常用的3008個漢字,並能用於香港和臺灣等地區,則識別字量應是6763個簡體字和5401個繁體字之總和,共約1萬多個漢字。也就是說,識別系統的“字典”至少必須有1萬多個漢字以及相應的標點、符號和一定數量的英、日文字母,才能滿足實際應用的需要。

實際上,漢字識別系統的字典中標準模板的數目,比上述所說的漢字字量還要多。這是因為:印刷漢字有多種字型,常用的有宋體、仿宋體、黑體和楷體,以及魏碑、小姚及其變體與變形等等。不同字型的同一個漢字的拓撲結構雖然相同,但它們的點陣圖形卻不完全一樣。目前計算機的智慧不高,往往不能適應這種變化,難以直接從拓撲結構相同與否來確定它們是否是同一個漢字,而把不同字型的同一個漢字看做是不同的字。實踐表明,在各種印刷字型中,楷體漢字的點陣圖形和其他字型的差別最大,能相容宋體和黑體的</PGN0010.TXT/PGN>標準模板,用來識別楷體漢字,往往出現錯誤。因此在多體漢字識別系統中,不同字型的同一個漢字,一般需要採用幾種不同的標準模板,才能保證系統有足夠高的識別率。因而模板庫的標準模板數應遠多於上述國標的漢字的字數,這相當於大大增加了識別系統所能識別的字量。

計算機不能辨別不同字型的問題是當前計算機的弱點。現代計算機雖然具有極強的計算能力和極高的計算速度,但智慧並不太高。人能夠迅速辨識的事物,計算機往往顯得十分笨拙,需要“反覆迭代”,才能給出正確的結果。有人認為:這是因為計算機只能進行邏輯思維,而不像人那樣能直觀地進行形象思維的緣故。至於如何使計算機能夠具有形象思維的能力,目前眾說紛紜,莫衷一是。有興趣的讀者不妨加以研究。

漢字識別的另一個困難是字形複雜:表現為筆畫多、字根多、字形多和相似字多。

2)筆畫多

筆畫是指在寫楷書漢字時,從落筆到擡筆之間筆尖所描繪的軌跡,是構成楷書漢字字形的最少的連筆單位。

漢字的字形有的十分簡單,只有一畫,如“一、乙”,有的字形極其複雜,筆畫最多的漢字有36畫,如“齉”字。這種生僻字現在已經不用,但筆畫多的漢字還為數不少。圖1.3是對國標漢字基本集6763個漢字筆畫的統計結果。漢字平均筆畫數約為13畫,多於10畫(包括10畫)的漢字字數約為6000個,約佔總字數的88.7%。筆畫多、字形結構複雜,識別困難程度可以想象。

橫、豎、撇、捺是構成漢字的四種基本筆畫。這四種筆畫中,橫筆佔39.51%,豎筆佔33.94%,撇佔18.77%,捺佔9.78%。由於橫豎筆共佔73.45%,它們也比較容易提取,因而在識別系統中往往採用它們作為識別特徵。

3)字根多

字根也稱為部件,是一個居於筆畫和單字之間的中間層次,相當於西文拼音文字的字母。把若干個字根按照一定規則加以組合就可構成方塊漢字。

根據國標《資訊處理用GB 13000.1字符集》關於漢字部件規範的定義:漢字部件(字根)是由筆畫組成的具有組配漢字功能的構字單位。

我國語言文字工作委員會對GB 13000.1字符集中的20902個漢字逐個進行拆分、歸納與統計後,制定了一個《漢</PGN0012.TXT/PGN>字基礎部件表》,該表共有560個可供獨立使用的部件。這個規範對中文資訊處理,特別是對漢字鍵盤輸入方法具有規範作用,對印刷漢字識別的結構識別法也有參考意義。不過上述560種部件並不都適用於漢字自動識別。通常漢字識別研究者大都根據自己的經驗,從中選用若干部件做為識別特徵。這種部件的結構不宜過於複雜,否則難於提取,但也不宜過於簡單,否則部件的數目太多,不便於組字。表1.1是30種常用字根及其出現的使用頻度。

 

4)字形複雜

把字根組成漢字有一定的規律和格式。

按照組成單字的字根數目,單字分為單根字、二根字、三根字等等。按照字根所處的位置,單字又可分為若干不同的字形,如獨體型、左右型、上下型、內外型和混合型等,分別舉例如下:

獨體型:田、月、母、聿、艮、中

左右型:伸、張、肌、湘、彬、明

上下型:男、昌、曼、笑、貫、李

內外型:回、國、圓、岡、區、囚

混合型:沿、型、盟、圇、司、茄

字形是方塊漢字特有的構字方法。組成拼音文字的字母順序從左至右依次排列,組成單字,所以拼音文字是由字母組成的字母串或字母序列。方塊漢字的組成方法跟拼音文字不同,每個漢字佔有一個二維空間,該空間可劃分為若干個子空間,字根按照一定規律分佈在各個子空間中,形成不同的字形。可以看出,這種構字方式相當複雜。字形較多,給漢字識別,無論是聯機識別或離線識別,都帶來不少麻煩。

5)字型多

漢字的字型可分為手寫體和印刷體兩大類。手寫體又可分為楷書、行書和草書等,印刷體則主要有楷體、宋體、仿宋體和黑體四種(圖1.4)。無論是手寫體或印刷體都以楷書(也稱正楷)作為標準和規範。

近年來,由於計算機在我國廣泛應用,又出現一種新的字型(姑且名之為計算機體)。這種字型仍以楷書為基礎,但種類繁多。字形發生器的研製工作者力求字形美觀、開銷少、操作方便,因而同一個字的點陣圖形差異較大。這種新字型的出現,對印刷漢字識別產生了一定的影響。

從識別角度看,印刷體和手寫漢字的字型多,是一個十分不利的因素。這是因為,不同字型的同一個單字,除了拓撲結構基本相同(不一定完全相同)外,它們的字形、偏旁部首跟主體部分的比例、位置,以及筆畫的形態、長短、粗細和位置等等,都有一定的差別。總起來說,不同字型的同一個字,其點陣圖形是不一樣的。因而用計算機自動識別時,往往不能把它們看做是相同的字,這相當於使被識別的漢字字量大大增加,或者使用於識別的特徵離散度增大,使識別率下降。這是漢字識別一個必須重視的突出的問題。

6)相似字多

在常用的4000多個漢字中,約有10%的字形十分相似。有的只差一“點”或差一“畫”,甚至少了一個“勾”,其意義就完全不同。例如“王、主、犬”,“千、幹、於”,“析、折、拆”,“又、叉、義”,“冶、治”,“準、淮”,“已、己、巳”,“勾、句”等等,不勝列舉。這些相似字很容易混淆,正確識別起來比較困難。在設計漢字識別系統的識別特徵時,對這些相似字的識別必須給予特別注意。

1.6 關於模式識別的討論

上面各節扼要介紹了計算機漢字識別的原理和困難,以及系統的效能評價等問題。這些討論是十分粗淺的。特別是關於計算機識別漢字(和各種字元)的原理,我們只用淺顯直觀的方法,做了概念性的介紹。讀者一定會提出如下的問題:識別系統中的“字典”(特徵庫)和日常用的字典是不是一樣?有什麼區別?為什麼又把它叫做“(標準)特徵庫”?什麼是“特徵”,如何得到用於識別的特徵?它跟識別系統的效能有什麼關係?待識別的漢字(或字元)怎樣同系統中的特徵相比較?如何計算它們的“相似度”(或距離)等等。

這些問題都很重要,是任何識別系統都應回答並且必須很好解決的問題,也是保證系統效能足夠好的關鍵。對這些問題的研究,在學術上很重要,在實用方面也很有意義。

要回答這些問題,最好從“模式識別”這門學科講起。

1)什麼是模式識別

首先讓我們來說明“模式”和“模式識別”的涵義。

人們在日常生活或工作時,常常要尋找某些事物(或現象)同其他事物(或現象)的相似之處,並根據一定的目的把這些相似但又不完全相同的事物(或現象)組成一類。雖然同類事物(或現象)的本質在一定意義上是相同的,但它們在某些方面不完全一樣。這種情形隨時隨處都存在。漢字就是一個典型的例子。以“呵”字為例,它的字形有很多種,手寫的“呵”字有楷書、行書和草書,印刷體的“呵”字則有仿宋體、宋體、黑體等等。各種寫法的“呵”字的筆畫有粗有細、字形有的端正,有的潦草,但都是“呵”字這一類。在學術上通常把各個具體的不同寫法的字叫做樣本,而把屬於同一類的各個樣本的集合叫做模式。樣本是具體的事物(或現象),模式則是抽象的概念。我國幾千年前就有“白馬非馬”的名句,“馬”是抽象的概念,白馬則是具體的那一匹白色的馬。樣本和模式這兩個名詞在模式識別的書本上經常會見到。但有人有時對它們不加區別,混同使用。但兩者的含義從文章上下文是可以弄清楚的。

所謂“模式識別”,通常是指“用計算機對一組事件或過程(即樣本)進行鑑別和分類。所識別的事件或過程可以是文字、聲音、影象等具體物件,也可以是狀態、程度等抽象物件”。“漢字識別”是模式識別的一個分支,其作用就是用計算機來認字,目的是把漢字輸入計算機,以便作進一步處理。

2)模式識別的方法

下面再談談模式識別的方法。

模式識別方法基本上分為統計決策法和結構(句法)識別法兩大類。

①結構識別法。

結構識別法是以同類模式具有相似結構為基礎的識別方法。所謂結構是指組成一個模式的基本單元(簡稱基元)之間的關係。例如,拼音文字的基元是字母,若干個字母按一定規律組成一個單字。在識別某一個單字時,如果能判別組成這個字的各個字母以及它們的(結構)關係,就可以識別這個字。基於這種原理,拼音文字的識別系統中的“字典”應包括字母,以及由字母組成單字的規律。在對某一個單字進行識別時,則應先提取構成這個單字的字母並分析它的結構,然後將它跟字典中所有已知單字的基元及其結構關係逐個加以比較,就可以確定待識單字和哪一個已知單字屬於同</PGN0017.TXT/PGN>一類別。這種識別方法跟英語句子的語法分析相似,因而有時也稱之為“句法識別法”。

②統計決策法。

模式識別的另一種方法是統計決策法。這是以同類模式具有相同屬性為基礎的識別方法。用來描述事物屬性的參量叫做特徵,它可以通過對模式的多個樣本的測量值進行統計分析後按一定準則來提取。例如:在漢字識別系統中,我們可以把每個漢字的圖形分為若干小方塊(圖1.5),然後統計每一小方塊中的黑畫素,構成一個多維特徵向量,作為該漢字的特徵。必須注意的是:在選擇特徵時,用於代表各類模式的特徵應該把同類模式的各個樣本聚集在一起,而使不同類模式的樣本儘量分開,以保證識別系統能具有足夠高的識別率。

上述兩種識別方法各有特點。結構法比較直觀,能較好反映事物的結構特性;問題是基元的提取很不容易,各基元的關係也比較複雜,抗干擾效能也較差。漢字的結構複雜、字數又多,採用結構法很難得到很好的效果。統計法利用計算機來抽取特徵,比較方便,抗干擾效能較好;缺點是沒有充分利用模式的結構特性。近10多年來我們把這兩種識別方法結合起來,派生出各種行之有效的結構法同統計法相結合的模式識別演算法,取得了很好的效果。

近20多年來,人工神經網路的研究取得了很大的進展。理論和實踐都表明,人工神經網路特別適用於模式識別。由於人工神經網路的工作機理與馮·諾依曼計算機有所不同,因此有的學者把人工神經網路作為模式識別的第三種方法。除此之外,有的學者還成功地把模糊集合的概念和知識推理方法引入到模式識別技術中。各種方法的結合已成為模式識別今後發展的一個重要方向。本書以科學普及為主旨,對此不能詳細論述,只能在有關章節中適當加以介紹,使讀者對此有所瞭解。

1.7 漢字識別的關鍵問題

前已述及,漢字識別是模式識別的一個分支。其特點是類別多、字形複雜,是一種超多類的模式識別,也是學術界公認較難解決的課題之一。

雷達訊號檢測是較早提出的、最為簡單的一種模式識別。早期的雷達系統只需判定是否有目標存在,即只識別“有、無”兩類問題。近幾十年來模式識別已廣泛用於各個方面,如遙感影象分類、計算機視覺等等,而且還建立了比較嚴密的理論,如統計決策理論和句法(結構)模式識別理論。這些理論和方法用來解決一般模式識別問題、特別是小類別的識別問題時卓有成效。但對於像漢字集合這樣的超多類模式集合,上述理論就顯得無能為力,難以解決實際中出現的各種問題。在漢字識別研究初期,有的學者對問題的性質認識不足,在相當長時間內,研究成果遠不能達到實際應用所要求的指標,原因之一可能是,有的研究工作只採用少量漢字為物件來探討識別漢字的方法,但所得的結論往往不能推廣用到整個常用的漢字集合,不能適應識別幾千個漢字的要求。這似乎符合哲學上“量變到質變”的規律:被識別的模式數量由通常的幾類、幾十類驟增至幾千類,甚至近萬類,其複雜程度指數性地增加,類似於“資訊爆炸”,如果沒有新的理論或方法,則問題很難得到滿意的解決。

方塊漢字是象形文字,由筆畫所構成,具有較嚴格的拓撲結構,包含著豐富的結構資訊。因此採用以筆畫為基元,用筆畫之間的關係來建立漢字模型,在理論上是成立的。但漢字結構十分複雜,簡單地採用這種方法來解決實際問題時困難很多。不少研究工作結果表明,結構識別法的抗干擾能力弱,魯棒性差。統計識別法恰好相反,它具有較高的抗干擾效能,也便於計算機進行處理。兩者結合將是解決間題的正確方向。20世紀80年代以來,我國和日本學者在這方面做了不少工作,分別提出若干統計法與結構法相結合的新演算法,選用了一些分類能力強、抗畸變和干擾效能好的特徵,基本上解決了漢字識別問題,包括多字型多字號混合排印的印刷漢字識別,以及對書寫限制較少的聯機手寫漢字識別問題,並且在實際上廣泛應用,解決了漢字自動錄入這隻“攔路虎”,消除了方塊漢字中難以和計算機結合的思想障礙。目前在市場上銷售的漢字識別系統能識別的字數,包括簡體3755個和繁體5401個,總共近1萬個漢字;有的系統還能識別漢英或漢日混排的材料,並具有各種表格處理功能。聯機手寫漢字識別(筆輸入)系統也已得到廣泛應用。可以說,漢字識別的基本問題已經由我國科技人員解決了。