網路搜尋引擎與智慧代理技術

NO IMAGE

網路搜尋引擎與智慧代理技術


摘 要: 分析搜尋引擎與智慧代理技術的原理,探討二者對現在及未 來網路資訊檢索的重要意義。 〔關鍵詞〕 智慧代理 搜尋引擎 智慧資訊檢索

網際網路在全球範圍內的迅速發展與成熟,促使社會各領域資訊飛速膨脹,為人們查詢、獲取有用資訊提供了豐富的資訊源,但也給資訊的準確定位提出了挑戰。提供網上資源的檢索是網路資訊服務的重要內容之一,加之現代人也對資訊把握的正確性和全面性提出了越來越高的要求,因此,當務之急是開發效能優越的網路資訊檢索工具。
1993年,第一批搜尋引擎誕生後,發展至今已經逐漸走向成熟,伴隨著計算機智慧化研究的不斷髮展,具有適應性和學習性特徵的智慧代理技術也正從試驗階段過渡到實際應用。目前,搜尋引擎(search engine)與智慧代理(intelligent agent)已經成為網路資訊搜尋的關鍵技術與核心思想。

1 搜尋引擎技術的發展現狀
1.1 搜尋引擎技術
目前,網路資訊檢索技術最主要的是搜尋引擎技術,搜尋引擎實際上是一個專用的WWW伺服器,也可以說是因特網上的一類網站,這類網站與一般的網站不同,其主要工作是收集網路上成千上萬的網站和網頁資訊,組成龐大的索引資料庫。使用優秀的搜尋引擎可以達到事半功倍的效果。目前網路上大約有3000多種搜尋引擎,我們較為熟悉的提供中文搜尋引擎的站點有sina、sohu、yahoo、netease和中文Excite等。

一般來說,搜尋引擎主要採取兩種方式實現對網路資訊資源的檢索,一是採用分類主題目錄形式,將網站進行樹狀的分類,所連結的網站必須至少歸屬於其中一個類別,形成類似圖書館目錄一樣的分類主題目錄,使用者通過逐級瀏覽這些目錄來找尋自己需要的內容,採用這種檢索方式的搜尋引擎有yahoo、sohu等,由於使用了專家進行歸納和分類,為資訊導航帶來了極大的方便,但這種方式在分類和目錄整理中需要大量的人力;二是使用關鍵詞匹配方式,其處理物件主要是文字,它能夠對大量文件建立由字(詞)到文件的索引庫,在此基礎上,使用者使用關鍵詞對網頁進行搜尋時,系統將會顯示含有該檢索用詞的所有網站、網頁和新聞等匹配資訊。關鍵詞檢索能解決對網頁細節的檢索問題,只要使用者輸入關鍵詞,系統通過蜘蛛機器人自動在選定的範圍內進行檢索,並將所檢索到的資訊自動標引匯入索引資料庫中,匹配所檢範圍中的網頁,就能得到檢索結果。

1.2 搜尋引擎使用的資訊檢索技術及其不足
目前搜尋引擎使用的資訊檢索技術主要有:Robot技術、索引技術、翻譯技術、轉換技術、過濾技術、資料庫技術、結果處理技術等。搜尋引擎的最大優點是:資訊的覆蓋面較大,資訊新穎,而且對搜尋結果的相關性排列上,搜尋引擎將其認為相關性高的檢索結果排列在前。但由於搜尋引擎使用的資訊檢索技術智慧水平的限制,以及對自然語言理解的制約,對網路資訊的檢索存在許多不足之處。主要有如下幾方面。

(1)現在的搜尋引擎主要通過Robot將網頁的全部或部分內容下載到自建索引庫中,由於下載的頁面許多是無用或暫時資訊,既影響檢索速度,也增加了使用者檢索負擔。

(2)由於搜尋引擎一般都採用關鍵詞檢索方式,但許多情況下,使用者很難簡單地用關鍵詞或關鍵詞之間的組配來準確地表達真正需要的資訊內容,表達困難導致檢索困難。

(3)每個引擎的覆蓋面都相當有限。經考察研究發現,沒有一個搜尋引擎的索引量超過整個網頁的1/6。

(4)搜尋的結果不精確。搜尋結果的精確性是由查詢詞與網頁的相關性來確定的,常常輸入一個單一的查詢詞能返回數萬篇結果,或者零篇結果。

2 智慧代理技術
2.1 智慧代理
智慧代理又稱智慧體,是人工智慧研究的新成果,它是在使用者沒有明確具體要求的情況下,根據使用者需要,代替使用者進行各種複雜的工作,如資訊查詢、篩選及管理,並能推測使用者的意圖,自主制定、調整和執行工作計劃。具有智慧性,是可進行高階、複雜的自動處理的代理軟體。智慧代理可應用於廣泛的領域,是人工智慧領域近年來研究的一個熱點,應用於資訊檢索領域之後,成為開發智慧化、個性化資訊檢索的重要技術之一。

2.2 智慧代理的特點

①智慧性。具有豐富的知識和一定的推理能力,能揣測使用者的意圖,並能處理複雜的難度高的任務,對使用者的需求能分析地接收,自動拒絕一些不合理或可能給使用者帶來危害的要求,而且具有從經驗中不斷學習的能力,適當地進行自我調節,提高處理問題能力。

②代理性。在功能上是使用者的某種代理,它可以代替使用者完成一些任務,並將結果主動反饋給使用者。

③移動性。可以在網路上漫遊到任何目標主機,並在目標主機上進行資訊處理操作,最後將結果集中返回到起點,而且能隨計算機使用者的移動而移動。

④主動性。能根據使用者的需求和環境的變化,主動向使用者報告並提供服務。

⑤協作性。能通過各種通訊協議和其他智慧體進行資訊交流,並可以相互協調共同完成複雜的任務。

3 搜尋引擎技術與智慧代理技術的結合

搜尋引擎與智慧代理技術有著各自的優勢與不足,把這兩種技術結合起來,將為開發新一代功能更強大的網上資訊搜尋系統提供廣闊的天地。智慧代理主要整合客戶端特殊的環境,配合使用者興趣完成搜尋。它對使用者資訊需求、偏好進行甄別、歸納、總結,分析使用者的興趣愛好,並藉助學習好的規則,自動、獨立地代理使用者查詢其感興趣的資訊。將搜尋引擎與智慧代理技術結合起來是建立新的檢索模式的必然趨勢。

3.1 伺服器端的個性化服務的引入

在伺服器端吸收智慧代理技術的思想,引入個性化和人性化服務的思想。引入使用者反饋機制來完善檢索機制、提高檢索命中率,同時也可以提供面向個人的特殊檢索服務。這種方式可以通過帳號制形式來實現,即為每一位使用者提供一個帳號(類似於個人郵箱),以記錄該使用者查詢蹤跡,從而在使用者再次登入時結合以往的使用者檢索記錄來配合提供相關的檢索服務。這種模式體現了個性化服務的特色,對於使用者一貫查詢的資訊就可以直接從使用者的資訊庫中提取,避免了重複查詢。另外,通過對使用者的反饋意見進行跟蹤,獲取使用者對結果的評價,據此提高檢索質量。檢索入口的自然語言化發展將有助於優化檢索介面,提高介面的人性化。

3.2 客戶端智慧代理技術的拓展
以智慧搜尋代理技術為主,結合搜尋引擎“面向主題”的檢索模式,在密切關注個體需求、提高資訊與使用者需求相關係統,彼此間可以通過統一的傳輸協議進行溝通,交換資訊,從而使更多的資訊得以挖掘,以彌補智慧代理資訊搜尋範圍有限的缺陷。這種模式充分利用了智慧搜尋代理的流動性、互動性、智慧性特點,同時又吸取了搜尋引擎的主題相關的思想,為高質量的資訊個性化檢索服務提供了新的模式。

搜尋引擎技術與智慧代理技術在網路資訊檢索上的結合發展潛力是巨大的,要真正實現兩者結合的各項優勢,還有待在機器學習、相關度分析等方面進行逐漸的研究和改進。在知識經濟時代,人們越來越需要個性化資訊的提供,作為網路資訊檢索的前沿技術,智慧代理技術將受廣大使用者的青睞,相信它的發展前景是非常廣闊的。