網(wǎng)站日志是做SEO時網(wǎng)站管理員和搜索引擎對話溝通的途徑。通過日志,了解搜索引擎蜘蛛的訪問情況。在很多時間,我們需要查看網(wǎng)站日志。以獲得了解搜索引擎如何爬取咱們的網(wǎng)站。
如何下載日志
通過FTP訪問網(wǎng)站的根目錄??梢钥吹揭粋€包含log的文件夾,這是存放日志的地方。
如何查看日志
下載、解壓、打開日志文件,日志文件內(nèi)容如:
61.135.168.22 - - [11/Jan/2009:04:02:45 +0800] "GET /bbs/thread-7303-1-1.html HTTP/1.1" 200 8450 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)" (注:百度,這部分為本文添加)
203.208.60.43 - - [11/Jan/2009:04:02:43 +0800] "GET /sns/space-13563-do-friend-view-me.html HTTP/1.1" 200 5162 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" (注:Google)
202.160.178.21 - - [11/Jan/2009:04:02:44 +0800] "GET /sns/space.php?uid=323 HTTP/1.0" 200 7535 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)" (注:雅虎)
65.55.220.217 - - [11/Jan/2009:04:02:57 +0800] "GET /ucenter/avatar.php?uid=12373&size=small&type=virtual HTTP/1.1" 301 - "-" "msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)" (注:MSN)
日志文件樣板全文下載:
http://edu.seowhy.com/ziliao/wwwlog20090112.log
如何分析日志
蜘蛛名稱:百度->baiduspider、Google ->Googlebot、Msn ->msnbot、yahoo ->Slurp、yodao ->YoudaoBot、sogou ->Sogou+get+spider。在日志文件里,搜索以上蜘蛛名稱。就可以看到蜘蛛抓取的痕跡。
我們分析的主要點是,HTTP狀態(tài)碼,如以上的200和301。
" 200 5162 " 代表正常抓取,這次抓取了5162個字節(jié)。
不同的服務(wù)器或虛擬主機設(shè)置的日志記錄內(nèi)容不同。
有的如:200 0 33834 237 953 我們通過多看幾條記錄,觀察規(guī)律,可以判斷第三個數(shù)字代表字節(jié)數(shù)。
有的如:200 0 0或200 0 64 這是沒有記錄抓取字節(jié)數(shù)。注意:200 0 0和200 0 64 沒代表什么問題。所謂200 0 64代表要被K的言論沒有根據(jù),一般的網(wǎng)站都有64代碼。
在日志里,發(fā)現(xiàn)比較多的HTTP狀態(tài)碼是,200(正常)、304(沒變化)、404(錯誤鏈接)。
304代表,自從上次抓取后,該內(nèi)容沒有更新。一般情況下,網(wǎng)站的圖片經(jīng)常會返回該值。
404代表,訪問的這個鏈接是錯誤鏈接。這個錯誤鏈接,一方面來自原本存在后來刪除了網(wǎng)頁,另一方面可能來自本來就不存在,但其他人外鏈了這么個死鏈接。
閱讀本文的人還閱讀了: