第一章 HTTP 1.1 HTTP協議的概念 HTTP協議,全稱HyperText Transfer Protocol,中文名為超文本傳輸協議,是互聯網上常用的通信協議之一,它有很多的應用。但是流行的就是用於Web瀏覽器和Web伺服器之間的通信,即WWW應用或稱為Web應用。WWW全稱World W ...
第一章 HTTP
1.1 HTTP協議的概念
HTTP協議,全稱HyperText Transfer Protocol,中文名為超文本傳輸協議,是互聯網上常用的通信協議之一,它有很多的應用。但是流行的就是用於Web瀏覽器和Web伺服器之間的通信,即WWW應用或稱為Web應用。WWW全稱World Wilde Web,常稱為Web,中文譯為“萬維網”。它是目前互聯網上最受用戶歡迎的信息服務形式。
註意:HTTP協議的WWW服務應用的預設埠為80(埠的概念),另外的一個加密的WWW服務應用https的預設埠443
1.2 HTTP協議版本
HTTP協議從誕生到現在已經經歷了若幹個版本,其中最主要的版本為HTTP/1.0、HTTP/1.1。HTTP/1.0是第一個得到廣泛使用的版本,而HTTP/1.1為當前使用主流版本。
1.2.1 HTTP/1.0簡介
HTTP/1.0是第一個得到廣泛使用的HTTP版本。規定了瀏覽器與伺服器只保持短暫連接,瀏覽器的每次請求都需要伺服器建立一個TCP連接,伺服器完成請求處理後即斷開TCP連接,伺服器不跟蹤每個客戶也不記錄過去的請求(短連接)
linux查看已經建立的連接
1 ss -lntup 2 3 ss -ant
1.2.2 HTTP/1.1簡介
在連接方面,HTTP/1.1支持持久連接,在一個TCP連接上可以傳送多個HTTP請求和相應,減少了建立和關閉連接的消耗和時間延遲,是當前互聯網主流的HTTP版本
1.3 HTTP報文
1.3.1 HTTP請求報文介紹
HTTP請求報文由請求行、請求頭部、空行和請求報文主體四部分組成
01.請求行
請求行是請求報文的第一行,用來說明客戶端想要做什麼,內容由請求方法欄位、URL欄位和HTTP協議版本欄位組成,它們之間用空格分隔。
以GET/index.html HTTP/1.1為例說明請求報文的起始請求行信息詳情
請求方法欄位示例 |
URL欄位示例 |
HTTP協議版本 |
GET |
/index.html |
HTTP/1.1 |
02.請求頭部
請求頭部由關鍵字/值對組成,每行一對,關鍵字和值用英文冒號“:”分隔。請求頭部的作用是通過客戶端把請求的相關信息告訴給伺服器
請求頭信息 |
說明 |
Accept:image/gif,image/jpeg |
媒體說明 |
Accept-Language: zh-en |
語言類型 |
Accept0-Encoding:gzip,deflate |
支持壓縮 |
User-Agent: Mozilla/4.0(compatile:MSIE6.0;Windows NT; ...) |
客戶端類型 |
Host: www.etiantian.org |
主機名 |
與請求報文相關的最常用的請求頭是Content-Type和Content-Length。
03.空行
最後一個請求頭部信息之後是一個空行,通過發送回車符和換行符,通知Web伺服器空行以下不會有請求頭部的信息了。
04.請求報文主體
請求報文主體中包括了要發送給Web伺服器的數據信息。請求報文主體不會應用於HTTP的GET命令方法,而是應用於POST方法。POST方法適用於需要客戶填寫表單的場合。
1.3.2 HTTP響應報文介紹
HTTP響應報文由起始行、響應頭部、空行和響應報文主體這幾個部分組成
1)起始行
響應報文的起始行也叫狀態行,用來說明伺服器響應客戶端請求的狀況。一般為協議及版本號、數字及狀態碼、狀態情況。例如:HTTP/1.1 200 OK
2)響應頭部
和請求報文類似,起始行的候命一般有若幹個頭部欄位。每個頭部欄位都包含一個名字和一個值,兩者之間用冒號分隔。頭部結尾也是以一個空行結束
3)空行
最後一個響應頭部信息之後是一個空行,通過發送回車符和換行符,通知客戶端空行下文無頭部信息了
4)響應報文主體
響應報文主體中裝載了要返回給客戶端數據。這些數據可以是文本,也可以是二進位的(如圖片、視頻)
第二章 常見的狀態碼
200 – 伺服器成功返回網頁
404 – 請求的網頁不存在
503 – 伺服器超時
2.1 臨時響應
1xx(臨時響應) 表示臨時響應並需要請求者繼續執行操作的狀態碼。
100(繼續)請求者應當繼續提出請求。伺服器返回此代碼表示已收到請求的第一部分,正在等待其餘部分。
101(切換協議)請求者已要求伺服器切換協議,伺服器已確認並準備切換。
2.2 成功
2xx (成功) 表示成功處理了請求的狀態碼。
200(成功)伺服器已成功處理了請求。通常,這表示伺服器提供了請求的網頁。如果是對您的 robots.txt 文件顯示此狀態碼,則表示 Googlebot 已成功檢索到該文件。
201(已創建)請求成功並且伺服器創建了新的資源。
202(已接受)伺服器已接受請求,但尚未處理。
203(非授權信息)伺服器已成功處理了請求,但返回的信息可能來自另一來源。
204(無內容)伺服器成功處理了請求,但沒有返回任何內容。
205(重置內容)伺服器成功處理了請求,但沒有返回任何內容。與 204 響應不同,此響應要求請求者重置文檔視圖(例如,清除表單內容以輸入新內容)。
206(部分內容)伺服器成功處理了部分 GET 請求。
2.3 重定向
3xx (重定向) 要完成請求,需要進一步操作。通常,這些狀態碼用來重定向。Google 建議您在每次請求中使用重定向不要超過 5 次。您可以使用網站管理員工具查看一下 Googlebot 在抓取重定向網頁時是否遇到問題。診斷下的網路抓取頁列出了由於重定向錯誤導致 Googlebot 無法抓取的網址。
300(多種選擇)針對請求,伺服器可執行多種操作。伺服器可根據請求者 (user agent) 選擇一項操作,或提供操作列表供請求者選擇。
301(永久移動)請求的網頁已永久移動到新位置。伺服器返回此響應(對 GET 或 HEAD 請求的響應)時,會自動將請求者轉到新位置。您應使用此代碼告訴 Googlebot 某個網頁或網站已永久移動到新位置。
302(臨時移動)伺服器目前從不同位置的網頁響應請求,但請求者應繼續使用原有位置來響應以後的請求。此代碼與響應 GET 和 HEAD 請求的 301 代碼類似,會自動將請求者轉到不同的位置,但您不應使用此代碼來告訴 Googlebot 某個網頁或網站已經移動,因為 Googlebot 會繼續抓取原有位置並編製索引。
303(查看其他位置)請求者應當對不同的位置使用單獨的 GET 請求來檢索響應時,伺服器返回此代碼。對於除 HEAD 之外的所有請求,伺服器會自動轉到其他位置。
304(未修改)自從上次請求後,請求的網頁未修改過。伺服器返回此響應時,不會返回網頁內容。
如果網頁自請求者上次請求後再也沒有更改過,您應將伺服器配置為返回此響應(稱為 If-Modified-Since HTTP 標頭)。伺服器可以告訴 Googlebot 自從上次抓取後網頁沒有變更,進而節省帶寬和開銷。
305(使用代理)請求者只能使用代理訪問請求的網頁。如果伺服器返回此響應,還表示請求者應使用代理。
307(臨時重定向)伺服器目前從不同位置的網頁響應請求,但請求者應繼續使用原有位置來響應以後的請求。此代碼與響應 GET 和 HEAD 請求的 301 代碼類似,會自動將請求者轉到不同的位置,但您不應使用此代碼來告訴 Googlebot 某個頁面或網站已經移動,因為 Googlebot 會繼續抓取原有位置並編製索引。
2.4 請求錯誤
4xx(請求錯誤) 這些狀態碼表示請求可能出錯,妨礙了伺服器的處理。
400(錯誤請求)伺服器不理解請求的語法。
401(未授權)請求要求身份驗證。對於登錄後請求的網頁,伺服器可能返回此響應。
403(禁止)伺服器拒絕請求。如果您在 Googlebot 嘗試抓取您網站上的有效網頁時看到此狀態碼(您可以在 Google 網站管理員工具診斷下的網路抓取頁面上看到此信息),可能是您的伺服器或主機拒絕了 Googlebot 訪問。
404(未找到)伺服器找不到請求的網頁。例如,對於伺服器上不存在的網頁經常會返回此代碼。
如果您的網站上沒有 robots.txt 文件,而您在 Google 網站管理員工具”診斷”標簽的 robots.txt 頁上看到此狀態碼,則這是正確的狀態碼。但是,如果您有 robots.txt 文件而又看到此狀態碼,則說明您的 robots.txt 文件可能命名錯誤或位於錯誤的位置(該文件應當位於頂級域,名為 robots.txt)。
如果對於 Googlebot 抓取的網址看到此狀態碼(在”診斷”標簽的 HTTP 錯誤頁面上),則表示 Googlebot 跟隨的可能是另一個頁面的無效鏈接(是舊鏈接或輸入有誤的鏈接)。
405(方法禁用)禁用請求中指定的方法。
406(不接受)無法使用請求的內容特性響應請求的網頁。
407(需要代理授權)此狀態碼與 401(未授權)類似,但指定請求者應當授權使用代理。如果伺服器返回此響應,還表示請求者應當使用代理。
408(請求超時)伺服器等候請求時發生超時。
409(衝突)伺服器在完成請求時發生衝突。伺服器必須在響應中包含有關衝突的信息。伺服器在響應與前一個請求相衝突的 PUT 請求時可能會返回此代碼,以及兩個請求的差異列表。
410(已刪除)如果請求的資源已永久刪除,伺服器就會返回此響應。該代碼與 404(未找到)代碼類似,但在資源以前存在而現在不存在的情況下,有時會用來替代 404 代碼。如果資源已永久移動,您應使用 301 指定資源的新位置。
411(需要有效長度)伺服器不接受不含有效內容長度標頭欄位的請求。
412(未滿足前提條件)伺服器未滿足請求者在請求中設置的其中一個前提條件。
413(請求實體過大)伺服器無法處理請求,因為請求實體過大,超出伺服器的處理能力。
414(請求的 URI 過長)請求的 URI(通常為網址)過長,伺服器無法處理。
415(不支持的媒體類型)請求的格式不受請求頁面的支持。
416(請求範圍不符合要求)如果頁面無法提供請求的範圍,則伺服器會返回此狀態碼。
417(未滿足期望值)伺服器未滿足”期望”請求標頭欄位的要求。
2.5 伺服器錯誤
5xx(伺服器錯誤) 這些狀態碼表示伺服器在處理請求時發生內部錯誤。這些錯誤可能是伺服器本身的錯誤,而不是請求出錯。
500(伺服器內部錯誤)伺服器遇到錯誤,無法完成請求。
501(尚未實施)伺服器不具備完成請求的功能。例如,伺服器無法識別請求方法時可能會返回此代碼。
502(錯誤網關)伺服器作為網關或代理,從上游伺服器收到無效響應。
503(服務不可用)伺服器目前無法使用(由於超載或停機維護)。通常,這隻是暫時狀態。
504(網關超時)伺服器作為網關或代理,但是沒有及時從上游伺服器收到請求。
505(HTTP 版本不受支持)伺服器不支持請求中所用的 HTTP 協議版本。