3個站對訪問日誌的分析發現的一些問題[2]

NO IMAGE

 昨天的修改就是給每個站點增加了一個robots.txt檔案。來分析下站點A站點B和站點C昨天的訪問日誌。

由於是虛擬主機,對方提供的訪問日誌很少,都是根據ip來查詢的,所以可能會有不準確,我都是拿ip在google中搜尋來看屬於什麼蜘蛛的。今天來說下總體的趨勢,總的來說都很不錯3個站點都被很多蜘蛛來訪問了。
1:站點A:這個站做得最早大概有一週了,經過發現在昨天早上到中午之前,還是大量的被google的蜘蛛給爬過了,中間摻雜這yahoo和sogou的蜘蛛,msn的蜘蛛和chinacache的(這個公司的ip是美國的,不是中國的公司的嘛),soso的就不說了吧,每天都在爬,數量不多,soso的蜘蛛是用我的虛擬主機所在城市的idc的ip來爬行的,google的大多是北京的ip,少量是國外的加利福尼亞的ip,晚上20點開始後,首先被百度的一個ip爬行了robots.txt檔案,接著其餘的一個ip段大量來爬行我的頁面。
2:站點B:早上8點之前被百度的蜘蛛大規模的爬行了,下午也就是新增了robots.txt之後,只有被soso和google的爬行,都是上來先找robots.txt
3:站點C:發現早上11點之前被百度大規模的爬行,下午20點左右大規模被百度爬行,和站點A的訪問時間差不多。

分別在百度和google中進行site命令的查詢,發現站點A沒有變化,只有一個快照10月5號的首頁,站點B沒有任何資訊,站點c增加了一個10月6號的快照。

一些結論:
由於分析結果才2天,昨天才新增了robots.txt檔案,並且站點A和B也是從這兩天開始分析訪問日誌的,從這2個站點上得到結論的話不太合理,還需要長期的觀察後再說。
站點C就是前天開始建立的站點,在A5發了一個外聯的。經過這2天分析發現,第一天基本沒有被baidu爬行,第二天也就是昨天,就被百度大規模爬行了。
根據百度訪問的時間和我新增robots.txt檔案的時間來看,好像這個檔案和具體的訪問關係也不大,但是通過訪問日只發現還是上來都先找robots.txt檔案的,所以建議大家還是放上去這個檔案吧。。

一些需要高手回答的問題:是不是當天爬行後需要很久才會被百度收錄?我的主要是偽原創的,很害怕百度不收錄的。google對我的收錄就很好,站點A都收錄了200多頁,站點B有20多頁,站點C有30多頁的。大家都說百度不如google的在內容偽原創方面的判斷,既然google都收錄了,那麼百度肯定判斷不出來是偽原創的吧?

明天我將繼續分析。。