搜尋引擎

1/22ページ

搜尋引擎重複網頁發現技術分析

搜尋引擎重複網頁發現技術分析 中科院軟體所  張俊林 TIMESTAMP:2006年6月1日   一.  介紹 統計結果表明,近似映象網頁數佔總網頁數的比例高達全部頁面的29%,而完全相同的頁面大約佔全部頁面的22%。這些重複網頁有的是沒有一點改動的拷貝,有的在內容上稍作修改,比如同一文章的不同版本 […]

幾個名詞(robots.txt/POST/Phrase chunking)

導讀:最近在走流程的時候遇到一些名詞,之前並沒有接觸過,現在將一部分收集起來以便以後查閱。 1、 robots.txtrobots.txt 是一個純文字檔案,通過在這個檔案中宣告該網站中不想被robots訪問的部分,這樣,該網站的部分或全部內容就可以不被搜尋引擎收錄了,或者指定搜尋引擎只收錄指定的內 […]

轉載一篇楊瀾的演講稿——關於孩子的想象力創造力

轉自:http://gdrs.blogdriver.com/gdrs/1162408.html    很榮幸能夠成為參加解放日報報業集團“文化講壇”的第一位女性嘉賓。女性和男性相比,有一個很大的、上帝賦予的遊戲規則的不同???就是我們可以做母親。這年頭做母親是非常難的,因為你不僅要教孩子如何在學校拿 […]

真正的世界首富身價70萬億美元,相當於中國GDP的30倍?

如果你從未聽說過里歐.萬塔(LeoWanta)這個名字,請不要感到慚愧,因為應該感到慚愧是哪些號稱是世界上最自由的西方新聞媒體。這是一個正在發生的故事,它早已在從新加坡到巴黎的國際金融和外交圈子裡鬧得沸沸洋洋,但西方主流媒體們卻保持著令人難以置信的沉默。   這並不是一個普通的金融事件,如果問題失控 […]

3個站對搜尋引擎訪問日誌的分析發現的一些問題

  3個站,2個站是9月低上線的(分別做站A,站B),基本都是採集的偽原創釋出的,昨天也開始弄了個站是另外分類的站點也是採集偽原創後的(站C)。   目前狀況是:站A站B在百度上沒有被收錄,但是被soso和google收錄了幾十篇。站C都沒有被收錄。   檢視了10月5號的訪問日誌,根據ip我查詢了 […]