robots協議

来源:https://www.cnblogs.com/SFVfreshman/archive/2019/05/11/10850390.html
-Advertisement-
Play Games

<div id="cnblogs_post_body" class="blogpost-body"><h3><strong>什麼是robots.txt?</strong></h3><p>robots.txt是一個純文本文件,是爬蟲抓取網站的時候要查看的第一個文件,一般位於網站的根目錄下。robots ...


<div id="cnblogs_post_body" class="blogpost-body"><h3><strong>什麼是robots.txt?</strong></h3>
<p>robots.txt是一個純文本文件,是爬蟲抓取網站的時候要查看的第一個文件,一般位於網站的根目錄下。robots.txt文件定義了爬蟲在爬取該網站時存在的限制,哪些部分爬蟲可以爬取,哪些不可以爬取(防君子不防小人)</p>
<p>更多robots.txt協議信息參考:www.robotstxt.org</p>
<p>在爬取網站之前,檢查robots.txt文件可以最小化爬蟲被封禁的可能</p>
<p>下麵是百度robots.txt協議的一部分:https://www.baidu.com/robots.txt</p>
<div class="cnblogs_code"><div class="cnblogs_code_toolbar"><span class="cnblogs_code_copy"><a href="javascript:void(0);" onclick="copyCnblogsCode(this)" title="複製代碼"><img src="//common.cnblogs.com/images/copycode.gif" alt="複製代碼"></a></span></div>
<pre><span style="color: #008080;"> 1</span> <span style="color: #000000;">User-agent: Baiduspider
</span><span style="color: #008080;"> 2</span> <span style="color: #000000;">Disallow: /baidu
</span><span style="color: #008080;"> 3</span> <span style="color: #000000;">Disallow: /s?
</span><span style="color: #008080;"> 4</span> <span style="color: #000000;">Disallow: /ulink?
</span><span style="color: #008080;"> 5</span> <span style="color: #000000;">Disallow: /link?
</span><span style="color: #008080;"> 6</span> <span style="color: #000000;">Disallow: /home/news/data/
</span><span style="color: #008080;"> 7</span>
<span style="color: #008080;"> 8</span> <span style="color: #000000;">User-agent: Googlebot
</span><span style="color: #008080;"> 9</span> <span style="color: #000000;">Disallow: /baidu
</span><span style="color: #008080;">10</span> <span style="color: #000000;">Disallow: /s?
</span><span style="color: #008080;">11</span> <span style="color: #000000;">Disallow: /shifen/
</span><span style="color: #008080;">12</span> <span style="color: #000000;">Disallow: /homepage/
</span><span style="color: #008080;">13</span> <span style="color: #000000;">Disallow: /cpro
</span><span style="color: #008080;">14</span> <span style="color: #000000;">Disallow: /ulink?
</span><span style="color: #008080;">15</span> <span style="color: #000000;">Disallow: /link?
</span><span style="color: #008080;">16</span> <span style="color: #000000;">Disallow: /home/news/data/
</span><span style="color: #008080;">17</span>
<span style="color: #008080;">18</span> <span style="color: #000000;">User-agent: MSNBot
</span><span style="color: #008080;">19</span> <span style="color: #000000;">Disallow: /baidu
</span><span style="color: #008080;">20</span> <span style="color: #000000;">Disallow: /s?
</span><span style="color: #008080;">21</span> <span style="color: #000000;">Disallow: /shifen/
</span><span style="color: #008080;">22</span> <span style="color: #000000;">Disallow: /homepage/
</span><span style="color: #008080;">23</span> <span style="color: #000000;">Disallow: /cpro
</span><span style="color: #008080;">24</span> <span style="color: #000000;">Disallow: /ulink?
</span><span style="color: #008080;">25</span> <span style="color: #000000;">Disallow: /link?
</span><span style="color: #008080;">26</span> <span style="color: #000000;">Disallow: /home/news/data/
</span><span style="color: #008080;">27</span>
<span style="color: #008080;">28</span> <span style="color: #000000;">User-agent: Baiduspider-image
</span><span style="color: #008080;">29</span> <span style="color: #000000;">Disallow: /baidu
</span><span style="color: #008080;">30</span> <span style="color: #000000;">Disallow: /s?
</span><span style="color: #008080;">31</span> <span style="color: #000000;">Disallow: /shifen/
</span><span style="color: #008080;">32</span> <span style="color: #000000;">Disallow: /homepage/
</span><span style="color: #008080;">33</span> <span style="color: #000000;">Disallow: /cpro
</span><span style="color: #008080;">34</span> <span style="color: #000000;">Disallow: /ulink?
</span><span style="color: #008080;">35</span> <span style="color: #000000;">Disallow: /link?
</span><span style="color: #008080;">36</span> <span style="color: #000000;">Disallow: /home/news/data/
</span><span style="color: #008080;">37</span>
<span style="color: #008080;">38</span> <span style="color: #000000;">User-agent: YoudaoBot
</span><span style="color: #008080;">39</span> <span style="color: #000000;">Disallow: /baidu
</span><span style="color: #008080;">40</span> <span style="color: #000000;">Disallow: /s?
</span><span style="color: #008080;">41</span> <span style="color: #000000;">Disallow: /shifen/
</span><span style="color: #008080;">42</span> <span style="color: #000000;">Disallow: /homepage/
</span><span style="color: #008080;">43</span> <span style="color: #000000;">Disallow: /cpro
</span><span style="color: #008080;">44</span> <span style="color: #000000;">Disallow: /ulink?
</span><span style="color: #008080;">45</span> <span style="color: #000000;">Disallow: /link?
</span><span style="color: #008080;">46</span> <span style="color: #000000;">Disallow: /home/news/data/
</span><span style="color: #008080;">47</span>
<span style="color: #008080;">48</span> <span style="color: #000000;">User-agent: Sogou spider2
</span><span style="color: #008080;">49</span> <span style="color: #000000;">Disallow: /baidu
</span><span style="color: #008080;">50</span> <span style="color: #000000;">Disallow: /s?
</span><span style="color: #008080;">51</span> <span style="color: #000000;">Disallow: /shifen/
</span><span style="color: #008080;">52</span> <span style="color: #000000;">Disallow: /homepage/
</span><span style="color: #008080;">53</span> <span style="color: #000000;">Disallow: /cpro
</span><span style="color: #008080;">54</span> <span style="color: #000000;">Disallow: /ulink?
</span><span style="color: #008080;">55</span> <span style="color: #000000;">Disallow: /link?
</span><span style="color: #008080;">56</span> <span style="color: #000000;">Disallow: /home/news/data/
</span><span style="color: #008080;">57</span>
<span style="color: #008080;">58</span> <span style="color: #000000;">User-agent: Sogou blog
</span><span style="color: #008080;">59</span> <span style="color: #000000;">Disallow: /baidu
</span><span style="color: #008080;">60</span> <span style="color: #000000;">Disallow: /s?
</span><span style="color: #008080;">61</span> <span style="color: #000000;">Disallow: /shifen/
</span><span style="color: #008080;">62</span> <span style="color: #000000;">Disallow: /homepage/
</span><span style="color: #008080;">63</span> <span style="color: #000000;">Disallow: /cpro
</span><span style="color: #008080;">64</span> <span style="color: #000000;">Disallow: /ulink?
</span><span style="color: #008080;">65</span> <span style="color: #000000;">Disallow: /link?
</span><span style="color: #008080;">66</span> <span style="color: #000000;">Disallow: /home/news/data/
</span><span style="color: #008080;">67</span>
<span style="color: #008080;">68</span> <span style="color: #000000;">User-agent: Sogou News Spider
</span><span style="color: #008080;">69</span> <span style="color: #000000;">Disallow: /baidu
</span><span style="color: #008080;">70</span> <span style="color: #000000;">Disallow: /s?
</span><span style="color: #008080;">71</span> <span style="color: #000000;">Disallow: /shifen/
</span><span style="color: #008080;">72</span> <span style="color: #000000;">Disallow: /homepage/
</span><span style="color: #008080;">73</span> <span style="color: #000000;">Disallow: /cpro
</span><span style="color: #008080;">74</span> <span style="color: #000000;">Disallow: /ulink?
</span><span style="color: #008080;">75</span> <span style="color: #000000;">Disallow: /link?
</span><span style="color: #008080;">76</span> <span style="color: #000000;">Disallow: /home/news/data/
</span><span style="color: #008080;">77</span>
78 <span style="color: #000000;">User-agent: *
</span>79 Disallow: /</pre>
<div class="cnblogs_code_toolbar"><span class="cnblogs_code_copy"><a href="javascript:void(0);" onclick="copyCnblogsCode(this)" title="複製代碼"><img src="//common.cnblogs.com/images/copycode.gif" alt="複製代碼"></a></span></div></div>
<p><span style="font-size: 15px;"><strong>robots.txt中的參數含義:</strong></span></p>
<p>1. User-agent:描述搜索引擎spider的名字。在“robots.txt“文件中,如果有多條 User-agent記錄,說明有多個robot會受到該協議的約束。所以,“robots.txt”文件中至少要有一條User- agent記錄。如果該項的值設為*(通配符),則該協議對任何搜索引擎機器人均有效。在“robots.txt”文件 中,“User-agent:*”這樣的記錄只能有一條。</p>
<p>2. Disallow: / 禁止訪問的路徑</p>
<p>例如,Disallow: /home/news/data/,代表爬蟲不能訪問/home/news/data/後的所有URL,但能訪問/home/news/data123</p>
<p>Disallow: /home/news/data,代表爬蟲不能訪問/home/news/data123、/home/news/datadasf等一系列以data開頭的URL。</p>
<p>前者是精確屏蔽,後者是相對屏蔽</p>
<p>3.&nbsp; Allow:/允許訪問的路徑</p>
<p>例如,Disallow:/home/後面有news、video、image等多個路徑</p>
<p>接著使用Allow:/home/news,代表禁止訪問/home/後的一切路徑,但可以訪問/home/news路徑</p>
<p>&nbsp;</p></div>


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 開 成 都 建 材 發 票微信775130892開 成 都 建 材 發 票微信775130892開 成 都 建 材 發 票微信775130892開 成 都 建 材 發 票微信775130892 開 成 都 建 材 發 票微信775130892開 成 都 建 材 發 票微信775130892開 成 都 ...
  • 裝飾模式概述 定義:動態地給一個對象增加一些附屬的職責。 裝飾裝飾,自然的理解就是在原有物品的基礎上,增加一些別的東西,讓它變得更令人滿意。且裝飾模式是在不改變對象本身的基礎上就行額外的增加,更加靈活。 比如買房,首先買的是個空房,隨後我們會放進去傢具,和各種生活中要用的東西,讓這個家變得更有家的味 ...
  • 支付系統一般需要對接多個支付渠道,一是為了保證系統的可靠性,不能因為單一渠道的問題影響整個支付系統。二是為了提高支付能力,不同渠道提供支付能力不同。三是為了降低支付成本。 對接多個支付渠道以後,為了可以正確選擇支付渠道支付,因此設計渠道路由系統。 從上圖可以看到路由系統功能其實很簡單,分發支付請求到 ...
  • 根據Python官方文檔,您可以強制垃圾收集器釋放未引用的記憶體gc.collect()。例: import gc gc.collect() 根據Python官方文檔,您可以強制垃圾收集器釋放未引用的記憶體gc.collect()。例: import gc gc.collect() 根據Python官方 ...
  • 計數排序: 1、一個非基於比較的排序演算法,該演算法於1954年由 Harold H. Seward 提出,它的優勢在於在對一定範圍內的整數排序, 其時間複雜度為Ο(n+k)(其中k是整數的範圍),快於任何比較排序演算法 2、步驟: a、找出給定整數序列的最大值 max 和最小值 min,創建大小為 ma ...
  • A選項 11 17 34 B選項 22 74 74 C選項 6 7 7 D選項 22 34 17 答案: D選項 解析: 首先,super()函數指的是調用父類的構造方法 ① new B()執行B的構造函數 第一行是super(5); 此時執行的是A的構造函數,A的構造函數調用的是setValue( ...
  • 題目: Given two binary trees, write a function to check if they are the same or not. Two binary trees are considered the same if they are structurally i ...
  • 最近看到別人用tkinter寫交互的小軟體,很羡慕,所以我試著用tkinter來寫一個you-get的下載頁面。新手 ,請多多指教…… ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...