as搜尋引擎

搜尋引擎重複網頁發現技術分析

搜尋引擎重複網頁發現技術分析 中科院軟體所  張俊林 TIMESTAMP:2006年6月1日   一.  介紹 統計結果表明,近似映象網頁數佔總網頁數的比例高達全部頁面的29%,而完全相同的頁面大約佔全部頁面的22%。這些重複網頁有的是沒有一點改動的拷貝,有的在內容上稍作修改,比如同一文章的不同版本 […]

搜尋引擎使用方法

google  單個網站內搜尋 在制定網站搜尋  “關鍵字 site:網址 ”       Note:網站域名不能有http://字首 ,網站域名不能有“http://”字首,也不能有任何“/”的目錄字尾;網站頻道則只侷限於“頻道名.域名”方式,而不能是“域名/頻道名”方式 * 各種字元 *swal […]

搜尋引擎的中文分詞技術

中文自動分 詞是網頁分析的基礎。在網頁分析的過程中,中文與英文的處理方式是不同的,這是因為中文資訊與英文資訊有一個明顯的差別: 英文單詞之間有空格,而中文文字中詞與詞之間沒有分割符。這就要求在對中文網頁進行分析之前,先要將網頁中的句子切割成一個個的詞的序列,這就是中文分 詞。中文自動分詞涉及到許多自 […]

搜尋引擎搭建第一步–分詞

一、背景說明 關於現在流行的分詞演算法有很多,具體瞭解請檢視:http://www.tuicool.com/articles/uYfy2q2 – 10大Java開源中文分詞器的使用方法和分詞效果對比 該片文章主要針對庖丁解牛分詞演算法進行剖析:庖丁解牛分詞演算法就是將輸入的文字按照一定的匹配策略和本 […]

搜尋引擎演算法

搜尋引擎的兩大主要任務是:匹配和排名。在實際中,搜尋引擎將匹配和排名組合成一個流程以實現一致性。但這兩個階段在概念上是獨立的,因此我們會假設在排名開始前,匹配已經完成。 索引的概念是所有搜尋引擎背後最基礎的思想。超連結把戲:所有網頁的初始權重值都是1,但如果一個網頁有鏈入連線,在計算該網頁權重時就要 […]

搜尋引擎的使用

搜尋指令 “” (雙引號) 把搜尋詞放在雙引號中,代表完全匹配搜尋,也就是說搜尋結果返回的頁面包含雙引號中出現的所有的詞,連順序也必須完全匹配。Google和百度都支援這個指令。 例如: “seo方法圖片” – (減號) -:代表搜尋不包含減號後面的詞的頁面。使用這個指令時減號前面必須是 […]

搜尋引擎的基本工作原理

1.搜尋引擎的概念   在浩瀚的網路資源中,搜素引擎(Search Engine)是一種網上資訊檢索工具,它能幫助使用者迅速而全面地找到所需要的資訊。我們這樣對搜尋引擎進行定義:搜尋引擎是一種能夠通過因特網接受使用者的查詢命令,並向使用者提供符合其查詢要求的資訊資源網址的系統。據統計,搜尋引擎搜尋僅 […]