前面的話 Robots協議(也稱為爬蟲協議、機器人協議等)全稱是“網路爬蟲排除標準”(Robots Exclusion Protocol),網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。本文將詳細介紹爬蟲協議robots 概述 robots.txt文件是一個文本文件,是搜索 ...
前面的話
Robots協議(也稱為爬蟲協議、機器人協議等)全稱是“網路爬蟲排除標準”(Robots Exclusion Protocol),網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。本文將詳細介紹爬蟲協議robots
概述
robots.txt文件是一個文本文件,是搜索引擎中訪問網站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程式在伺服器上什麼文件是可以被查看的
當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的範圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面
【原則】
Robots協議是國際互聯網界通行的道德規範,基於以下原則建立:
1、搜索技術應服務於人類,同時尊重信息提供者的意願,並維護其隱私權;
2、網站有義務保護其使用者的個人信息和隱私不被侵犯
[註意]robots.txt必須放置在一個站點的根目錄下,而且文件名必須全部小寫
寫法
【User-agent】
下麵代碼中*代表的所有的搜索引擎種類,*是一個通配符,表示所有的搜索機器人
User-agent: *
下麵代碼表示百度的搜索機器人
User-agent: Baiduspider
【Disallow】
下麵代碼表示禁止爬尋admin目錄下麵的目錄
Disallow: /admin/
下麵代碼表示禁止抓取網頁所有的.jpg格式的圖片
Disallow: /.jpg$
下麵代碼表示禁止爬取ab文件夾下麵的adc.html文件
Disallow:/ab/adc.html
下麵代碼表示禁止訪問網站中所有包含問號 (?) 的網址
Disallow: /*?*
下麵代碼表示禁止訪問網站中所有頁面
Disallow: /
【Allow】
下麵代碼表示允許訪問以".html"為尾碼的URL
Allow: .html$
下麵代碼表示允許爬尋tmp的整個目錄
Allow: /tmp
用法
下麵代碼表示允許所有的robot訪問網站所有的頁面
User-agent: *
Allow: /
下麵代碼表示禁止所有搜索引擎訪問網站的任何部分
User-agent: *
Disallow: /
下麵代碼表示禁止百度的機器人訪問其網站下其所有的目錄
User-agent: Baiduspider
Disallow: /
下麵代碼表示禁止所有搜索引擎訪問網站的cgi-bin、tmp、~joe這三個目錄下的文件
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/
誤區
【誤區一】:網站上的所有文件都需要蜘蛛抓取,那就沒必要在添加robots.txt文件了。反正如果該文件不存在,所有的搜索蜘蛛將預設能夠訪問網站上所有沒有被口令保護的頁面
每當用戶試圖訪問某個不存在的URL時,伺服器都會在日誌中記錄404錯誤(無法找到文件)。每當搜索蜘蛛來尋找並不存在的robots.txt文件時,伺服器也將在日誌中記錄一條404錯誤,所以應該在網站中添加一個robots.txt
【誤區二】:在robots.txt文件中設置所有的文件都可以被搜索蜘蛛抓取,這樣可以增加網站的收錄率
網站中的程式腳本、樣式表等文件即使被蜘蛛收錄,也不會增加網站的收錄率,還只會浪費伺服器資源。因此必須在robots.txt文件里設置不要讓搜索蜘蛛索引這些文件