一、robots基本概念
robots.txt文件是網站的一個文件,它是給搜索引擎蜘蛛看的。搜索引擎蜘蛛爬行道我們的網站首先就是抓取這個文件,根據里面的內容來決定對網站文件訪問的范圍。它能夠保護我們的一些文件不暴露在搜索引擎之下,從而有效的控制蜘蛛的爬取路徑,為我們站長做好seo創造必要的條件。尤其是我們的網 站剛剛創建,有些內容還不完善,暫時還不想被搜索引擎收錄時。
幾點注意:
網站必須要有一個robot.txt文件。
robots.txt文件應該放置在網站根目錄下
文件名是小寫字母。
當需要完全屏蔽文件時,需要配合meta的robots屬性。
二、robots.txt的基本語法
內容項的基本格式:鍵: 值對。
1) User-Agent鍵
后面的內容對應的是各個具體的搜索引擎爬行器的名稱。如百度是Baiduspider,谷歌是Googlebot。
一般我們這樣寫:
User-Agent: *
表示允許所有搜索引擎蜘蛛來爬行抓取。如果只想讓某一個搜索引擎蜘蛛來爬行,在后面列出名字即可。如果是多個,則重復寫。
注意:User-Agent:后面要有一個空格。
在robots.txt中,鍵后面加:號,后面必有一個空格,和值相區分開。
2)Disallow鍵
該鍵用來說明不允許搜索引擎蜘蛛抓取的URL路徑。
例如:Disallow: /index.php 禁止網站index.php文件
Allow鍵
該鍵說明允許搜索引擎蜘蛛爬行的URL路徑
例如:Allow: /index.php 允許網站的index.php
通配符*
代表任意多個字符
例如:Disallow: /*.jpg 網站所有的jpg文件被禁止了。
結束符$
表示以前面字符結束的url。
例如:Disallow: /?$ 網站所有以?結尾的文件被禁止。
三、robots.txt實例分析
例1. 禁止所有搜索引擎訪問網站的任何部分
User-agent: *
Disallow: /
例2. 允許所有的搜索引擎訪問網站的任何部分
User-agent: *
Disallow:
例3. 僅禁止Baiduspider訪問您的網站
User-agent: Baiduspider
Disallow: /
例4. 僅允許Baiduspider訪問您的網站
User-agent: Baiduspider
Disallow:
例5. 禁止spider訪問特定目錄
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /data/
注意事項:1)三個目錄要分別寫。2)請注意最后要帶斜杠。3)帶斜杠與不帶斜杠的區別。
例6. 允許訪問特定目錄中的部分url
我希望a目錄下只有b.htm允許訪問,怎么寫?
User-agent: *
Allow: /a/b.htm
Disallow: /a/
注:允許收錄優先級要高于禁止收錄。
從例7開始說明通配符的使用。通配符包括("$" 結束符;
"*"任意符)
例7. 禁止訪問網站中所有的動態頁面
User-agent: *
Disallow: /*?*
例8. 禁止搜索引擎抓取網站上所有圖片
User-agent: *
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
其他很多情況呢,需要具體情況具體分析。只要你了解了這些語法規則以及通配符的使用,相信很多情況是可以解決的。
四、meta robots標簽
meta是網頁html文件的head標簽里面的標簽內容。它規定了此html文件對與搜索引擎的抓取規則。與robot.txt 不同,它只針對寫在此html的文件。
寫法:
。
…里面的內容列出如下
noindex - 阻止頁面被列入索引。
nofollow - 阻止對于頁面中任何超級鏈接進行索引。
noarchive - 不保存該頁面的網頁快照。
nosnippet - 不在搜索結果中顯示該頁面的摘要信息,同時不保存該頁面的網頁快照。
noodp - 在搜索結果中不使用Open Directory Project中的描述信息作為其摘要信息
SEO專題推薦:
關鍵詞優化專題:網站關鍵詞優化沒效果?來這里學習最實用的關鍵詞優化技巧!
內鏈優化專題:最能提升網站權重的內鏈部署優化技巧與方法
外鏈建設專題:高質量自然外鏈怎么做?讀完這些你將質的飛躍
網站降權專題:2015年最有用的網站降權、被K、被黑、被攻擊的解決方法
用戶體驗專題:學習完這些,作為站長的你可以秒懂如何做網站用戶體驗
行業網站專題:優化行業網站的“葵花寶典”看完后無優化壓力
申請創業報道,分享創業好點子。點擊此處,共同探討創業新機遇!