本月熱門
廊坊市廊通機械有限公司
地址:河北廊坊市廣陽區廊萬路69號
聯系人:劉經理
電話:0316-8092035,0316-8092025
傳真:0316-2895316
E-mail:langtongjixie@126.com
網址:www.jeancago.com
你的位置:膠體磨首頁 >> 新聞發布 >> 行業新聞  行業新聞
膠體磨:由淺到深再談網站原始訪問日志分析
來源:www.jeancago.com | 發布時間:2012/4/19 | 瀏覽次數:

期筆者對大約50多位剛從事或已經從事1-2年的seoer做了個小調查,其中包括很多面試者,真正在工作中能分析到日志的seoer比例非常非常的少,在問到訪問日志在seo所起到的作用,很多seoer都直搖頭,或者僅僅知道一些皮毛并未親手操作過,其主要原因還是在公司平臺中并未有機會去實踐,下面筆者分享下自己對網站原始訪問日志的認識:

  什么是訪問日志

  網站訪問日志是記錄web服務器接收處理請求以及運行時錯誤等各種原始信息的以.log結尾的文件,確切的講,應該是服務器日志。它的作用是讓我們seoer可以清楚的得知用戶在什么IP、什么時間、用什么操作系統、什么瀏覽器、什么分辨率顯示器的情況下訪問了你網站的哪個頁面,是否訪問成功。

  什么時候我們需要去分析日志及日志特征

  我們會天天都去分析日志嗎?不會的,因為日志分析比較枯燥,一般都是每月或者半月分析一次。這種分析屬于日常分析,如果您的網站一直都比較正常那可以每月分析一次,或者可以簡單的分析一次。

  其實日志更多是在網站出現異常的時候,會觀察半個月日志,集中分析蜘蛛的動向。比如會分析是不是網站404,robots設置異;蛘邟祚R等問題造成蜘蛛消失,逐兒去查找解決問題。

  下面是從筆者日常分析的日志中取的一條訪問記錄:

  119.254.22.200 - - [10/Apr/2012:00:04:54 +0800] "GET /bbjk/index.html HTTP/1.0" 200 25269 "-" "Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)"

  119.254.22.200 為用戶訪問ip

  10/Apr/2012:00:04:54 +0800 為訪問日期 -時區

  GET /bbjk/index.html HTTP/1.0 根據HTTP/1.1 協議 抓取(域名下)/bbjk/index.html 這個頁面(GET表示服務器動作)

  200 服務器響應狀態碼

  25269 為頁面字節數。

  Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) 為搜狗蜘蛛特征。

  注意:任何蜘蛛都僅僅為網站的普通用戶。不要以為蜘蛛非常的強大,很多人還認為網站若禁止登錄查看內容,蜘蛛都能爬取登陸后的頁面內容,這是不可能的。除非網站做了蜘蛛專屬手段。

  怎么去分析網站訪問日志

  曾記得在幾年前,筆者剛接觸seo的時候,工具稀少的年代,筆記一直都喜歡手工

  去分析訪問日志,當然手工分析很費時費力,再這里只講解下筆者最喜歡手工分析日志中的幾點。

  筆者現在手工分析一般都集中在研究每日蜘蛛在網站上爬行規律與網站更新數據之間的關系。當然每個網站需根據自己來觀察,最后會有一個非常完美的規律。

  筆者會把每日的蜘蛛訪問時間按時間段排序統計成報表,

  比如:2012-4-18 1-2點爬行5次

  2-3點爬行3次

  3-4點爬行10次

  如果你細心的話可以做個走勢圖就非常直觀。這種統計一般都是在網站剛建立后和網站出異常后加強分析日志,日常運營中,更多注重的是分析出蜘蛛每日的爬行規律然后定時的放出充量文章,增加收錄。

  手工分析日志都是比較枯燥的,有時會影響心情,不過現在工具繁盛的年代,我們也借助工具來達到事半功倍。

  筆者比較推薦的是光年日志分析工具。該工具非常簡單,筆者不在此演示,有興趣的自己百度,它的優點在于能在生成的報告中清晰的告訴我們蜘蛛爬行異常,與頁面抓取痕跡。比如404. 唯一遺憾的是目前筆者還未找到一款工具帶有分析蜘蛛爬行規律生成走勢圖的工具。

  注意:在日志分析中,很多時候我們都是想從日志中尋找到問題,以便改進我們的自身的問題,所以需要特別關注404,301等狀態碼。

  真假蜘蛛辨別

  為什么會出現真假蜘蛛,主要是因為現在信息繁盛,很多采集工具為不讓對方發現自己的痕跡都模擬蜘蛛的痕跡來下載數據源。所以會造成很多seoer誤認為蜘蛛大量的抓取頁面卻發現收錄并未增加的現象。下面筆者告訴大家比較容易辨認真假蜘蛛和一些特別注意的地方。

  1, 真蜘蛛

  220.181.108.96 - - [07/Apr/2012:01:22:21 +0800] "GET /site/sex/index.php HTTP/1.1" 302 20 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

  這是筆者某網站的日志片段,我拿出ip,在win系統下cmd登錄dos框下輸入nslookup 220.181.108.96 查看回顯:

  

 

  如上圖,若是百度蜘蛛,他會直接回顯百度的域名。

  2, 假蜘蛛

  假蜘蛛比較經典的就是chinaz的查詢工具了,他就是模擬百度蜘蛛的,他的ip為125.90.88.96 我們反查后并未出現百度域名。有興趣的可以nslookup 125.90.88.96下,筆者就不截圖了。

  一般假蜘蛛的存在形式為:XXX.XXX.XXX.XXX - - [07/Apr/2012:01:22:21 +0800] "GET /site/sex/index.php HTTP/1.1" 302 20 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

  看著跟真的一樣,唯獨ip就是貓膩!

  3, 特殊情況的蜘蛛

  1) cdn加速后,造成ip混亂。

  此類情況出現一般是網站在做了cdn加速后,再去查看apache服務器的訪問日志的時候發現很多蜘蛛的痕跡ip都非常的類似,如果按照百度官方出的辨別手法nslookup ip 后肯定為匿名,因為這些ip都是cdn節點ip,所以會造成誤解。若開啟cdn后,蜘蛛實際訪問次數一般都<=日志中蜘蛛總數值。

  2) 百度匿名蜘蛛的存在性討論。

  匿名蜘蛛?百度工程師lee一直強調百度蜘蛛是不會匿名去訪問網站的,但筆者從網上查閱資料,加上筆者某個站的數據推測,筆者認為會有兩種情況:

  第一種:假如真的存在匿名蜘蛛,這很明顯與lee的話有悖。所以這點我們可以去辯證的去理解,假如存在,匿名蜘蛛會做什么,很多seoer包括筆者都猜測可能會存在用此類蜘蛛去驗證網站是否對蜘蛛與用戶做了不同的待遇。所以此種情況,做賊就不要心虛嘛,老老實實做站吧。

  第二種:可能是百度的上班族們在公司訪問了你的網站,百度員工也是人,他們也有七情六欲,或許你的網站被他們某人發現了,訪問了你的網站后,從而留下了百度ip,造成了誤解。(其實百度很多部門都是一直在做收集客戶資料的,比如網盟部門)

  注意:對于真假蜘蛛的辨別一定要多方面考慮,切勿只拿ip來判斷就斷定真偽。

本文來自廊坊膠體磨www.jeancago.com

 
TAG:
 
打印本頁 || 關閉窗口
 上一篇:膠體磨優化突破點之長尾關鍵詞戰略
 下一篇:膠體磨教你五種方法讓你的軟文像新聞
評論
評論加載中...
內容:
評論者: 驗證碼:
  
相關內容
亚洲午夜国产精品无码中文字