爬蟲協議robots_ZenDei技術網路在線

爬蟲協議robots

-Advertisement-

前面的話 Robots協議(也稱為爬蟲協議、機器人協議等)全稱是“網路爬蟲排除標準”(Robots Exclusion Protocol)，網站通過Robots協議告訴搜索引擎哪些頁面可以抓取，哪些頁面不能抓取。本文將詳細介紹爬蟲協議robots 概述 robots.txt文件是一個文本文件，是搜索 ...

前面的話

　　Robots協議(也稱為爬蟲協議、機器人協議等)全稱是“網路爬蟲排除標準”(Robots Exclusion Protocol)，網站通過Robots協議告訴搜索引擎哪些頁面可以抓取，哪些頁面不能抓取。本文將詳細介紹爬蟲協議robots

概述

　　robots.txt文件是一個文本文件，是搜索引擎中訪問網站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程式在伺服器上什麼文件是可以被查看的

　　當一個搜索蜘蛛訪問一個站點時，它會首先檢查該站點根目錄下是否存在robots.txt，如果存在，搜索機器人就會按照該文件中的內容來確定訪問的範圍；如果該文件不存在，所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面

【原則】

　　Robots協議是國際互聯網界通行的道德規範，基於以下原則建立：

　　1、搜索技術應服務於人類，同時尊重信息提供者的意願，並維護其隱私權；

　　2、網站有義務保護其使用者的個人信息和隱私不被侵犯

　　[註意]robots.txt必須放置在一個站點的根目錄下，而且文件名必須全部小寫

寫法

【User-agent】

　　下麵代碼中*代表的所有的搜索引擎種類，*是一個通配符，表示所有的搜索機器人

User-agent: *

　　下麵代碼表示百度的搜索機器人

User-agent: Baiduspider

【Disallow】

　　下麵代碼表示禁止爬尋admin目錄下麵的目錄

Disallow: /admin/

　　下麵代碼表示禁止抓取網頁所有的.jpg格式的圖片

Disallow: /.jpg$

　　下麵代碼表示禁止爬取ab文件夾下麵的adc.html文件

Disallow:/ab/adc.html

　　下麵代碼表示禁止訪問網站中所有包含問號 (?) 的網址

Disallow: /*?*

　　下麵代碼表示禁止訪問網站中所有頁面

Disallow: /

【Allow】

　　下麵代碼表示允許訪問以".html"為尾碼的URL

Allow: .html$

　　下麵代碼表示允許爬尋tmp的整個目錄

Allow: /tmp

用法

　　下麵代碼表示允許所有的robot訪問網站所有的頁面

User-agent: *
Allow:　/

　　下麵代碼表示禁止所有搜索引擎訪問網站的任何部分

User-agent: *
Disallow: /

　　下麵代碼表示禁止百度的機器人訪問其網站下其所有的目錄

User-agent: Baiduspider
Disallow: /

　　下麵代碼表示禁止所有搜索引擎訪問網站的cgi-bin、tmp、~joe這三個目錄下的文件

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

誤區

　　【誤區一】：網站上的所有文件都需要蜘蛛抓取，那就沒必要在添加robots.txt文件了。反正如果該文件不存在，所有的搜索蜘蛛將預設能夠訪問網站上所有沒有被口令保護的頁面

　　每當用戶試圖訪問某個不存在的URL時，伺服器都會在日誌中記錄404錯誤（無法找到文件）。每當搜索蜘蛛來尋找並不存在的robots.txt文件時，伺服器也將在日誌中記錄一條404錯誤，所以應該在網站中添加一個robots.txt

　　【誤區二】：在robots.txt文件中設置所有的文件都可以被搜索蜘蛛抓取，這樣可以增加網站的收錄率

　　網站中的程式腳本、樣式表等文件即使被蜘蛛收錄，也不會增加網站的收錄率，還只會浪費伺服器資源。因此必須在robots.txt文件里設置不要讓搜索蜘蛛索引這些文件

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

ubuntu下python+tornado+supervisor+nginx部署

把伺服器的圖片顯示給用戶（到時候雇一些人），讓用戶根據圖片錄入文字信息。 ...
使用curl模擬ip和來源進行網站採集的實現方法

對於限制了ip和來源的網站，使用正常的採集方式是不行的。本文將介紹一種方法，使用php的curl類實現模擬ip和來源，實現採集限制ip和來源的網站。 1.設置頁面限制ip和來源訪問 server.php <?php $client_ip = getip(); $referer = getrefere ...
Spring 自定義註解，配置簡單日誌註解

java在jdk1.5中引入了註解，spring框架也正好把java註解發揮得淋漓盡致。下麵會講解Spring中自定義註解的簡單流程，其中會涉及到spring框架中的AOP（面向切麵編程）相關概念。不清楚java註解的，可以先瞭解java自定義註解： "Java自定義註解" 一、創建自定義註解 ...
上傳圖片並生成相關縮略圖-PHP

if(!empty($_FILES["fileField"]["name"])){//檢測表單傳遞文件數據 $fileinfo = $_FILES["fileField"]; if($fileinfo['size'] < 10000000 && $fileinfo['size'] > 0){//大小 ...
【DDD】--好文收藏

發現一批好文，完整系列，攢~~ 隨筆分類 - DDD - 『聖傑』 DDD理論學習系列（1）-- 通用語言 DDD理論學習系列（2）-- 領域蒙 2017-07-13 09:24 周四 ...
js實現數組去重方法總結

方法一：雙層迴圈，外層迴圈元素，內層迴圈時比較值如果有相同的值則跳過，不相同則push進數組方法二：利用splice直接在原數組進行操作雙層迴圈，外層迴圈元素，內層迴圈時比較值值相同時，則刪去這個值註意點:刪除元素之後，需要將數組的長度也減1. 優點：簡單易懂缺點：占用記憶體高，速度慢方 ...
file控制項選擇圖片，img即可顯示（無需上傳）

代碼如下： ...
Math、Number、String 、Array、Object 的新 APIs

Math Math.trunc() 取出一個小數的小數部分，返回整數部分 Math.trunc(1.239); //1 Math.trunc( 3,1415926); // 2 Math.trunc(3.9); //3 對於空值和無法截取整數的值，返回NaN Math.trunc("a"); //N ...