robots.txt概念和10條注意事項

100362次閱讀

robots.txt概念

如果我們網(wǎng)站內(nèi)有某些特殊的文件不讓搜索引擎收錄,那怎么辦?

答案是:使用一個叫做robots.txt的文件。

robots.txt文件告訴搜索引擎本網(wǎng)站哪些文件是允許搜索引擎蜘蛛抓取,哪些不允許抓取。

搜索引擎蜘蛛訪問網(wǎng)站任何文件之前,需先訪問robots.txt文件,然后抓取robots.txt文件允許的路徑,跳過其禁止的路徑。

總結:robots.txt是一個簡單的.txt文件,用以告訴搜索引擎哪些網(wǎng)頁可以收錄,哪些不允許收錄。


關于robots.txt文件的10條注意事項:

1、如果未創(chuàng)建robots.txt文件,則代表默認網(wǎng)站所有文件向所有搜索引擎開放爬取。

2、必須命名為:robots.txt,都是小寫,robot后面加"s"。

3、robots.txt必須放置在一個站點的根目錄下。

     通過如http://m.amjx.cn/robots.txt 可以成功訪問到,則說明本站的放置正確。

4、一般情況下,robots.txt里只寫著兩個函數(shù):User-agent和 Disallow。

5、空格換行等不能弄錯,可復制這個頁面并修改為自己的。點擊

6、有幾個禁止,就得有幾個Disallow函數(shù),并分行描述。

7、至少要有一個Disallow函數(shù),如果都允許收錄,則寫: Disallow: 

    如果都不允許收錄,則寫:Disallow: /  (注:只是差一個斜桿)。

8、允許有多個User-agent,如果對所有爬取蜘蛛生效,則用“*”星號表示。

9、robtos.txt文件內(nèi)可以放上Sitemap文件地址,方便告訴搜索引擎Sitemap文件地址。

10、網(wǎng)站運營過程中,可以根據(jù)情況對robots.txt文件進行更新,屏蔽一些不要搜索引擎抓取的文件地址。


舉例兩個常見屏蔽規(guī)則:

User-agent: *  星號說明允許所有搜索引擎收錄

Disallow: /search.html   說明 http://m.amjx.cn/search.html 這個頁面禁止搜索引擎抓取。

Disallow: /index.php?   說明類似這樣的頁面http://m.amjx.cn/index.php?search=%E5%A5%BD&action=search&searchcategory=%25 禁止搜索引擎抓取。


擴展閱讀:

robots.txt文件用法規(guī)范百度官方資料截圖版

本文由夫唯SEO特訓營編輯整理。

搜外專注SEO培訓和SEO周邊Saas服務解決方案,10年來超過五萬學員在此獲得技術提升和人脈圈子。

SEO課程包含移動搜索、零基礎建站、群站SEO思維、搜外6系統(tǒng)、SEM入門等。

192期A班報名時間7月1日-7月15日,請?zhí)砑诱猩头∧⑿牛簊eowhy2021。 微信掃碼添加客服人員

我們的目標是:讓非技術人員輕松學會互聯(lián)網(wǎng)技術。

  • 搜外會員SEO交流群(免費)

    微信掃碼添加客服人員
  • 小程序運營交流群(免費)

    微信掃碼添加客服人員
  • 搜外會員SEM競價交流群(免費)

    微信掃碼添加客服人員
  • 夫唯學員SEO交流群(VIP)

    微信掃碼添加客服人員

掃碼獲取資源

微信掃碼添加客服人員
  • SEO技術實戰(zhàn)微信群

    微信掃碼添加客服人員
  • 大站流量總監(jiān)群(審核身份)

    微信掃碼添加客服人員
  • Google獨立站英文SEO群

    微信掃碼添加客服人員
  • SEO團隊KPI管理表格

    微信掃碼添加客服人員
  • 工業(yè)品網(wǎng)站友情鏈接群

    微信掃碼添加客服人員
  • 本地生活服務業(yè)友鏈群

    微信掃碼添加客服人員

跟夫唯老師系統(tǒng)學習群站SEO
成為互聯(lián)網(wǎng)運營推廣大咖

掌握SEO技巧、建站前端、群站霸屏、SEM入門、新聞源推廣……
Processed in 1.707431 Second , 40 querys.