如何使用robots禁止各大搜索引擎爬蟲爬取網站

-Advertisement-

ps：由於公司網站配置的測試環境被百度爬蟲抓取，干擾了線上正常環境的使用，剛好看到每次搜索淘寶時，都會有一句由於robots.txt文件存在限制指令無法提供內容描述，於是便去學習了一波 1.原來一般來說搜索引擎爬取網站時都會，先讀取下robots.txt文件，並依照裡面所設定的規則去爬取網站（當然是 ...

ps：由於公司網站配置的測試環境被百度爬蟲抓取，干擾了線上正常環境的使用，剛好看到每次搜索淘寶時，都會有一句由於robots.txt文件存在限制指令無法提供內容描述，於是便去學習了一波

　　　1.原來一般來說搜索引擎爬取網站時都會，先讀取下robots.txt文件，並依照裡面所設定的規則去爬取網站（當然是指沒用登錄限制的頁面）

　　　 2.下麵我們就來說一說如何設置robots.txt文件

　　　　1）.robots.txt文件必須是放在文件根目錄上：
　　　　　　例如：

　　　　　　　　├─admin

　　　　　　　　│ └─templates

　　　　　　　　│ header.tpl.php

　　　　　　　　│ task_add.tpl.php

　　　　　　　　│ └─robots.txt

　　　　 2 ) .首先常用的命令為

　　　　　　　　User-agent : 可以具體制定User-agent適用，即搜索引擎的名字，如果為 * 的話則為通配

　　　　　　　　Disallow : 可以設定檔案或文件夾，不允許被爬蟲爬取，且為 / 時禁止爬取整站，也可以指定文件路徑，不可爬取

　　　　　　　　Crawl-delay: 延時爬取，防止爬蟲短時間內爬取網站過快導致網站崩潰，則可以設置該延時

　　　　　　　　Allow : 允許爬取指定頁面，為 / 時爬取整站

　　　　3）搜索引擎別稱

　　　　　　　　Googlebot 谷歌

　　　　　　　　Baiduspider 百度

　　　　　　　　等等

　　類似我們測試環境就設置了

　　　　User-agent : / 所有搜索引擎

　　　　Disallow : / 禁止整站

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

前端之HTML

前言：在瞭解HTML之前先簡約概述一下web的服務本質 Web服務本質瀏覽器發請求 --> HTTP協議 --> 服務端接收請求 --> 服務端返迴響應 --> 服務端把HTML文件內容發給瀏覽器 --> 瀏覽器渲染頁面 HTML是什麼？超文本標記語言（Hypertext Markup Lang ...
bootstrap 模板下載

bootstrap簡潔、直觀、強悍的前端開發框架，讓web開發更迅速、簡單。在這篇文章中，我們已經編製了5款最好的 Bootstrap 4.0 主題模板清單，讓您可以用在下一個項目中，我們希望你能找到有用的。這些主題包含了所有必要的 HTML 和 CSS 為基礎的設計模板的版式，表單，按鈕，導航和 ...
JS思維導圖（轉）

思維導圖不得不說是學習及溫習的極佳方法，這裡轉載一波網上他人的精品JS思維導圖十張，共同學習，如有冒犯原著可聯繫本人及時處理。 ...
angularjs學習第七天筆記（系統指令學習）

angularjs指令（directive）中的系統自定義指令學習研究 ...
學習 javascript （一）javascript 簡介

javascript 從一個簡單的輸入驗證器發展成為一門強大的編程語言。歷史以前我們輸入一個表單，點擊完提交後，伺服器發送反饋給我們。比如填寫姓名的時候，我們在前端不能限定人們只能輸入漢字，需要伺服器告訴我們：你丫錯了，又輸入數字了！！ Netscape 公司決定著手開發一種客戶端語言，用來處理 ...
正則限制輸入為數字，且最多輸入2位小數之新寫法

原本小程式需要一個限制文本框輸入為數字，且最多保留2位小數的效果，網上找到的例子感覺有點繁瑣，就自己寫了一個。代碼很簡單，主要藉助了正則的組匹配特性進行處理： 1、用在小程式上的示例Demo： *.wxml文件代碼： <view class='row'> <view class="title">文 ...
javascript基礎修煉(4)——UMD規範的代碼推演

javascript基礎修煉(4)——UMD規範的代碼推演 1. UMD規範地址：https://github.com/umdjs/umd 規範，就是所有規範里長得最醜的那個，沒有之一！！！它是為了讓模塊同時相容和`CommonJs UMD ES harmony`的統一的規範後，它也將退出歷 ...
vue知識掌握（一）

# vue項目的搭建本文章主要講述vue項目的搭建，在搭建vue項目前需要準備一些材料。 1.[node](https://nodejs.org/zh-cn/)安裝 npm：在你安裝node的時候一般node已經自帶了npm，所以忽略。 webpack：npm install webpack -g ...