洗禮靈魂,修煉python(56)--爬蟲篇—知識補充—編碼之url編碼

来源:http://www.cnblogs.com/yangva/archive/2017/11/03/7774810.html
-Advertisement-
Play Games

其實在最前面的某一篇博文里,是絕對提過編碼的,有ASCII,有UTF-8,有GB2312等等,這些我絕對說過的。 url編碼 首先,Http協議中參數的傳輸是"key=value"這種鍵值對形式的,如果要傳多個參數就需要用“&”符號對鍵值對進行分割。如"?key1=value1&key2=value ...


其實在最前面的某一篇博文里,是絕對提過編碼的,有ASCII,有UTF-8,有GB2312等等,這些我絕對說過的。

url編碼

首先,Http協議中參數的傳輸是"key=value"這種鍵值對形式的,如果要傳多個參數就需要用“&”符號對鍵值對進行分割。如"?key1=value1&key2=value2",這樣在服務端在收到這種字元串的時候,會用“&”分割出每一個參數,然後再用“=”來分割出鍵和值併進行處理。

然後,url只能使用 ASCII 字元集來通過網際網路進行發送,也就是說url允許的只能是英文字母、阿拉伯數字和某些標點符號,不能使用其他文字和符號。那麼如果url中有漢字,就必須編碼成為允許的字元後方可使用。

但是有個問題是,標準的國際組織並沒有規定具體的編碼方法,而是交給應用程式(瀏覽器)根據自己的一套編碼方式進行編碼,有點亂,而每個瀏覽器對同樣的字元解碼都是不太一樣的。但這裡只是指網站子文件的字元編碼混亂,比如前面用的百度搜索,編碼還是一樣的:

火狐瀏覽器:

https://www.baidu.com/s?wd=%E8%83%A1%E6%AD%8C&rsv_spt=1&rsv_iqid=0xa88a849a000297f1&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&rqlang=cn&tn=monline_3_dg&rsv_enter=1&oq=a&inputT=1164&rsv_t=44f3deAD5ZhHUuZS8qctF8DYdHQl0Jc0fIHprlrxVQPAKhGaI7WQzU0%2BDYkOZ7iFCV9H&rsv_pq=bc5bcce5000040e2&rsv_sug3=10&rsv_sug1=9&rsv_sug7=100&bs=a

谷歌瀏覽器:

https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E8%83%A1%E6%AD%8C&oq=%25E8%2583%25A1%25E6%25AD%258C&rsv_pq=bc8022d200026160&rsv_t=cf02s%2BKYldDmROy0mQpW7gMikG0rFAkF5WE0KydGdjM1v4PH9wW87XYxuCA&rqlang=cn&rsv_enter=1&rsv_sug3=1&rsv_sug1=1&rsv_sug7=100&rsv_sug2=0&inputT=12&rsv_sug4=439

IE瀏覽器:

https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=0&rsv_idx=1&tn=baidu&wd=%E8%83%A1%E6%AD%8C&rsv_pq=b3b7634b00004749&rsv_t=fa91EE041mGXpmDfMhWtd6QSrm%2F24pXydfxJc%2BPc5W59OuaHKoicHE4Ngwo&rqlang=cn&rsv_enter=1&rsv_sug3=4

(搜索關鍵詞我已經標註出來)

 

url的編碼樣式是使用【%】加上代表十六進位為一個位元組形式的兩位字元—【0-9和A-F】來(比如%EC),詳細規則:

  • 對於ASCII字元,字母a在ASCII碼中對應的位元組是0x97,那麼Url編碼之後得到的就是%97,字母abc, url編碼後得到的就是%97%98%99
  • 對於非ASCII字元,RFC文檔建議使用utf-8對其進行編碼得到相應的位元組,然後對每個位元組執行百分號編碼。如前面搜索的"胡歌"使用UTF-8字元集得到的位元組為0xE8 0x83 0xA1 0xE6 0xAD 0x8C,經過Url編碼之後得到%E8%83%A1%E6%AD%8C

所以url編碼通常也被稱為百分號編碼(percent-encoding)。所以你覺不覺得url編碼確實混亂,一會兒又是ASCII碼,一會兒又是UTF-8碼?

 不過平時使用時註意一下就可以,不用太在意

 

免責聲明

本博文只是為了分享技術和共同學習為目的,並不出於商業目的和用途,也不希望用於商業用途,特此聲明。如果內容中測試的貴站站長有異議,請聯繫我立即刪除


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • ​ 一、背景概述 (一)產品背景 1.互聯網+的需要 在信息越來越繁雜的互聯網時代,公司所運行的項目越來越多,項目相關服務繁多,服務之間存在複雜的依賴關係,運維與管理任務越來越繁重,手工交付需要花費很多的人力與時間,且安全性和時效性均無法保證。對於多資源型分佈/分離式部署項目,Udeployer應運 ...
  • Struts2中Action從表單取值並且存到Web元素中(session) ...
  • 報錯:Wed Nov 01 13:03:16 CST 2017 WARN: Establishing SSL connection without server's identity verification is not recommended. According to MySQL 5.5.45 ...
  • 類變數:形如static int a; 顧名思義,類變數可以理解為類的變數,類變數在類載入的時候就已經給它分配了記憶體空間,不同於實例變數(int a; ),實例變數是在該類創建對象的時候分配記憶體的。並且,每創建一個對象,就會為該實例變數分配相應的記憶體空間,而類變數它不屬於任何一個對象,它為所有對象所 ...
  • Spring中的Junit ...
  • 如果想把命令E:\zpic作為提供下載的目錄,那麼在cmd里cd到該目錄下,並執行命令:python -m SimpleHTTPServer 預設的埠號是8000, 伺服器根目錄就是運行python命令的工作目錄 如果提示錯誤:No module named SimpleHTTPServer 則試 ...
  • 最近公司安排做CCFA的一些東西,有一項就是做一個網頁播放攝像頭的實時監控。網上百度了很久,很多都是直接用vlc插件實現,但是目前主流瀏覽器都已經不支持vlc插件了,搞了很久也沒成功。 網上大多是這麼實現的: <object type='application/x-vlc-plugin' id='v ...
  • GO可以說是近幾年最熱門的新興語言之一了, 一般人看到 分散式 和 大數據 就會想到GO, 這個系列的文章會通過研究golang的源代碼來分析內部的實現原理, 和CoreCLR不同的是, golang的源代碼已經被很多人研究過了, 我將會著重研究他們未提到過的部分. 另一點和CoreCLR不同的是, ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...