洗禮靈魂，修煉python（56）--爬蟲篇—知識補充—編碼之url編碼

-Advertisement-

其實在最前面的某一篇博文里，是絕對提過編碼的，有ASCII，有UTF-8，有GB2312等等，這些我絕對說過的。 url編碼首先，Http協議中參數的傳輸是"key=value"這種鍵值對形式的，如果要傳多個參數就需要用“&”符號對鍵值對進行分割。如"?key1=value1&key2=value ...

其實在最前面的某一篇博文里，是絕對提過編碼的，有ASCII，有UTF-8，有GB2312等等，這些我絕對說過的。

url編碼

首先，Http協議中參數的傳輸是"key=value"這種鍵值對形式的，如果要傳多個參數就需要用“&”符號對鍵值對進行分割。如"?key1=value1&key2=value2"，這樣在服務端在收到這種字元串的時候，會用“&”分割出每一個參數，然後再用“=”來分割出鍵和值併進行處理。

然後，url只能使用 ASCII 字元集來通過網際網路進行發送，也就是說url允許的只能是英文字母、阿拉伯數字和某些標點符號，不能使用其他文字和符號。那麼如果url中有漢字，就必須編碼成為允許的字元後方可使用。

但是有個問題是，標準的國際組織並沒有規定具體的編碼方法，而是交給應用程式（瀏覽器）根據自己的一套編碼方式進行編碼，有點亂，而每個瀏覽器對同樣的字元解碼都是不太一樣的。但這裡只是指網站子文件的字元編碼混亂，比如前面用的百度搜索，編碼還是一樣的：

火狐瀏覽器：

https://www.baidu.com/s?wd=%E8%83%A1%E6%AD%8C&rsv_spt=1&rsv_iqid=0xa88a849a000297f1&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&rqlang=cn&tn=monline_3_dg&rsv_enter=1&oq=a&inputT=1164&rsv_t=44f3deAD5ZhHUuZS8qctF8DYdHQl0Jc0fIHprlrxVQPAKhGaI7WQzU0%2BDYkOZ7iFCV9H&rsv_pq=bc5bcce5000040e2&rsv_sug3=10&rsv_sug1=9&rsv_sug7=100&bs=a

谷歌瀏覽器：

https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E8%83%A1%E6%AD%8C&oq=%25E8%2583%25A1%25E6%25AD%258C&rsv_pq=bc8022d200026160&rsv_t=cf02s%2BKYldDmROy0mQpW7gMikG0rFAkF5WE0KydGdjM1v4PH9wW87XYxuCA&rqlang=cn&rsv_enter=1&rsv_sug3=1&rsv_sug1=1&rsv_sug7=100&rsv_sug2=0&inputT=12&rsv_sug4=439

IE瀏覽器：

https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=0&rsv_idx=1&tn=baidu&wd=%E8%83%A1%E6%AD%8C&rsv_pq=b3b7634b00004749&rsv_t=fa91EE041mGXpmDfMhWtd6QSrm%2F24pXydfxJc%2BPc5W59OuaHKoicHE4Ngwo&rqlang=cn&rsv_enter=1&rsv_sug3=4

（搜索關鍵詞我已經標註出來）

url的編碼樣式是使用【%】加上代表十六進位為一個位元組形式的兩位字元—【0-9和A-F】來（比如%EC），詳細規則：

對於ASCII字元，字母a在ASCII碼中對應的位元組是0x97，那麼Url編碼之後得到的就是%97，字母abc， url編碼後得到的就是%97%98%99
對於非ASCII字元，RFC文檔建議使用utf-8對其進行編碼得到相應的位元組，然後對每個位元組執行百分號編碼。如前面搜索的"胡歌"使用UTF-8字元集得到的位元組為0xE8 0x83 0xA1 0xE6 0xAD 0x8C，經過Url編碼之後得到%E8%83%A1%E6%AD%8C

所以url編碼通常也被稱為百分號編碼（percent-encoding）。所以你覺不覺得url編碼確實混亂，一會兒又是ASCII碼，一會兒又是UTF-8碼？

不過平時使用時註意一下就可以，不用太在意

免責聲明

本博文只是為了分享技術和共同學習為目的，並不出於商業目的和用途，也不希望用於商業用途，特此聲明。如果內容中測試的貴站站長有異議，請聯繫我立即刪除

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

海西 · 雲交付 DevOps實踐落地方案

一、背景概述（一）產品背景 1.互聯網+的需要在信息越來越繁雜的互聯網時代，公司所運行的項目越來越多，項目相關服務繁多，服務之間存在複雜的依賴關係，運維與管理任務越來越繁重，手工交付需要花費很多的人力與時間，且安全性和時效性均無法保證。對於多資源型分佈/分離式部署項目，Udeployer應運 ...
關於Struts2中Action從表單取值並且存到Web元素中(session)

Struts2中Action從表單取值並且存到Web元素中(session) ...
Wed Nov 01 13:03:16 CST 2017 WARN: Establishing SSL connection without server's identity verification is not recommended.

報錯：Wed Nov 01 13:03:16 CST 2017 WARN: Establishing SSL connection without server's identity verification is not recommended. According to MySQL 5.5.45 ...
Java中的類變數、實例變數、類方法、實例方法的區別

類變數：形如static int a; 顧名思義，類變數可以理解為類的變數，類變數在類載入的時候就已經給它分配了記憶體空間，不同於實例變數（int a; ），實例變數是在該類創建對象的時候分配記憶體的。並且，每創建一個對象，就會為該實例變數分配相應的記憶體空間，而類變數它不屬於任何一個對象，它為所有對象所 ...
Spring中的Junit

Spring中的Junit ...
Python命令開啟http.server伺服器

如果想把命令E:\zpic作為提供下載的目錄，那麼在cmd里cd到該目錄下，並執行命令：python -m SimpleHTTPServer 預設的埠號是8000，伺服器根目錄就是運行python命令的工作目錄如果提示錯誤：No module named SimpleHTTPServer 則試 ...
HTML實現海康攝像頭實時監控的一點心得

最近公司安排做CCFA的一些東西，有一項就是做一個網頁播放攝像頭的實時監控。網上百度了很久，很多都是直接用vlc插件實現，但是目前主流瀏覽器都已經不支持vlc插件了，搞了很久也沒成功。網上大多是這麼實現的： <object type='application/x-vlc-plugin' id='v ...
Golang源碼探索(一) 編譯和調試源碼

GO可以說是近幾年最熱門的新興語言之一了, 一般人看到分散式和大數據就會想到GO, 這個系列的文章會通過研究golang的源代碼來分析內部的實現原理, 和CoreCLR不同的是, golang的源代碼已經被很多人研究過了, 我將會著重研究他們未提到過的部分. 另一點和CoreCLR不同的是, ...