爬蟲協議robots

来源:http://www.cnblogs.com/xiaohuochai/archive/2017/07/14/7168187.html
-Advertisement-
Play Games

前面的話 Robots協議(也稱為爬蟲協議、機器人協議等)全稱是“網路爬蟲排除標準”(Robots Exclusion Protocol),網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。本文將詳細介紹爬蟲協議robots 概述 robots.txt文件是一個文本文件,是搜索 ...


前面的話

  Robots協議(也稱為爬蟲協議、機器人協議等)全稱是“網路爬蟲排除標準”(Robots Exclusion Protocol),網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。本文將詳細介紹爬蟲協議robots

 

概述

  robots.txt文件是一個文本文件,是搜索引擎中訪問網站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程式在伺服器上什麼文件是可以被查看的

  當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的範圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面

【原則】

  Robots協議是國際互聯網界通行的道德規範,基於以下原則建立:

  1、搜索技術應服務於人類,同時尊重信息提供者的意願,並維護其隱私權;

  2、網站有義務保護其使用者的個人信息和隱私不被侵犯

  [註意]robots.txt必須放置在一個站點的根目錄下,而且文件名必須全部小寫

 

寫法

【User-agent】

  下麵代碼中*代表的所有的搜索引擎種類,*是一個通配符,表示所有的搜索機器人

User-agent: * 

  下麵代碼表示百度的搜索機器人

User-agent: Baiduspider

【Disallow】

  下麵代碼表示禁止爬尋admin目錄下麵的目錄

Disallow: /admin/

  下麵代碼表示禁止抓取網頁所有的.jpg格式的圖片

Disallow: /.jpg$

  下麵代碼表示禁止爬取ab文件夾下麵的adc.html文件

Disallow:/ab/adc.html 

  下麵代碼表示禁止訪問網站中所有包含問號 (?) 的網址

Disallow: /*?* 

  下麵代碼表示禁止訪問網站中所有頁面

Disallow: /

【Allow】

  下麵代碼表示允許訪問以".html"為尾碼的URL

Allow: .html$

  下麵代碼表示允許爬尋tmp的整個目錄

Allow: /tmp

 

用法

  下麵代碼表示允許所有的robot訪問網站所有的頁面

User-agent: *
Allow: /

  下麵代碼表示禁止所有搜索引擎訪問網站的任何部分

User-agent: *
Disallow: /

  下麵代碼表示禁止百度的機器人訪問其網站下其所有的目錄

User-agent: Baiduspider
Disallow: /

  下麵代碼表示禁止所有搜索引擎訪問網站的cgi-bin、tmp、~joe這三個目錄下的文件

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

 

誤區

  【誤區一】:網站上的所有文件都需要蜘蛛抓取,那就沒必要在添加robots.txt文件了。反正如果該文件不存在,所有的搜索蜘蛛將預設能夠訪問網站上所有沒有被口令保護的頁面

  每當用戶試圖訪問某個不存在的URL時,伺服器都會在日誌中記錄404錯誤(無法找到文件)。每當搜索蜘蛛來尋找並不存在的robots.txt文件時,伺服器也將在日誌中記錄一條404錯誤,所以應該在網站中添加一個robots.txt

  【誤區二】:在robots.txt文件中設置所有的文件都可以被搜索蜘蛛抓取,這樣可以增加網站的收錄率

  網站中的程式腳本、樣式表等文件即使被蜘蛛收錄,也不會增加網站的收錄率,還只會浪費伺服器資源。因此必須在robots.txt文件里設置不要讓搜索蜘蛛索引這些文件

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 把伺服器的圖片顯示給用戶(到時候雇一些人),讓用戶根據圖片錄入文字信息。 ...
  • 對於限制了ip和來源的網站,使用正常的採集方式是不行的。本文將介紹一種方法,使用php的curl類實現模擬ip和來源,實現採集限制ip和來源的網站。 1.設置頁面限制ip和來源訪問 server.php <?php $client_ip = getip(); $referer = getrefere ...
  • java在jdk1.5中引入了註解,spring框架也正好把java註解發揮得淋漓盡致。 下麵會講解Spring中自定義註解的簡單流程,其中會涉及到spring框架中的AOP(面向切麵編程)相關概念。 不清楚java註解的,可以先瞭解java自定義註解: "Java自定義註解" 一、創建自定義註解 ...
  • if(!empty($_FILES["fileField"]["name"])){//檢測表單傳遞文件數據 $fileinfo = $_FILES["fileField"]; if($fileinfo['size'] < 10000000 && $fileinfo['size'] > 0){//大小 ...
  • 發現一批好文,完整系列,攢~~ 隨筆分類 - DDD - 『聖傑』 DDD理論學習系列(1)-- 通用語言 DDD理論學習系列(2)-- 領域 蒙 2017-07-13 09:24 周四 ...
  • 方法一: 雙層迴圈,外層迴圈元素,內層迴圈時比較值 如果有相同的值則跳過,不相同則push進數組 方法二:利用splice直接在原數組進行操作 雙層迴圈,外層迴圈元素,內層迴圈時比較值 值相同時,則刪去這個值 註意點:刪除元素之後,需要將數組的長度也減1. 優點:簡單易懂缺點:占用記憶體高,速度慢 方 ...
  • 代碼如下: ...
  • Math Math.trunc() 取出一個小數的小數部分,返回整數部分 Math.trunc(1.239); //1 Math.trunc( 3,1415926); // 2 Math.trunc(3.9); //3 對於空值和無法截取整數的值,返回NaN Math.trunc("a"); //N ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...