什么是百度spider?
百度spider是百度搜索引擎的自動程序,主要是訪問互聯(lián)網(wǎng)上的網(wǎng)頁,建立索引數(shù)據(jù)庫,讓用戶在百度搜索引擎中能訪問到你的網(wǎng)站。
?
百度spider遇到的問題有哪些?
1、為什么spider一直抓取網(wǎng)站?
答:如果你的網(wǎng)站上不斷的產(chǎn)生新的頁面,spider就會持續(xù)的抓取??梢酝ㄟ^觀察網(wǎng)絡日志spider訪問是否正常,會出現(xiàn)惡意冒充spider來抓取網(wǎng)站,如果發(fā)現(xiàn)異常,可以在百度搜索資源平臺反饋中心反饋。
?
2、網(wǎng)站上某些頁面不想被spider訪問,要怎么處理?
答:網(wǎng)站不想被spider抓取的頁面,可以利用robots.txt文件禁止spider訪問。
?
3、網(wǎng)站已經(jīng)加了robots.txt,為什么還能在百度搜索出來?
答:搜索引擎索引數(shù)據(jù)庫更新需要時間。雖然網(wǎng)站上設置了robots.txt禁止spider訪問,但在百度搜索引擎數(shù)據(jù)庫中已經(jīng)建立的網(wǎng)頁索引信息,短時間內(nèi)不能快速清除的,也可以檢查robots設置是否正確。
?
4、網(wǎng)站的內(nèi)容只想被百度索引,不想被快照保存。
答:可以使用meta robots協(xié)議。在網(wǎng)頁中設置meta,百度顯示只對該網(wǎng)頁建索引,不會在搜索結(jié)果中顯示網(wǎng)頁快照。
?
5、為什么spider抓取會造成寬帶堵塞?
答:正常抓取的情況下是不會造成寬帶堵塞的現(xiàn)象,除非是有人冒充spider抓取網(wǎng)站。如果遇到這類現(xiàn)象,提供網(wǎng)站該時段的訪問日志給百度搜索資源平臺反饋中心。
?
百度spider會遇到的問題總結(jié)了以上五點,問題是源源不斷的,后續(xù)還會繼續(xù)給大家總結(jié)更多的問題以及解決方案。
閱讀本文的人還可以閱讀: