1.http:(1)當⽤戶在地址輸⼊了⽹址 發送⽹絡請求的過程是什麼 (2)http的請求⽅式 get請求 (1)⽐較便捷 缺點:不安全:明⽂ 參數的⻓度有限制 post請求 (1)⽐較安全 (2)數據整體沒有限制 (3)上傳⽂件 put(不完全的) delete(刪除 ⼀ 些信息) head(請求 ...
1.http:(1)當⽤戶在地址輸⼊了⽹址 發送⽹絡請求的過程是什麼 (2)http的請求⽅式 get請求 (1)⽐較便捷 缺點:不安全:明⽂ 參數的⻓度有限制 post請求 (1)⽐較安全 (2)數據整體沒有限制 (3)上傳⽂件 put(不完全的) delete(刪除 ⼀ 些信息) head(請求頭) 發送⽹絡請求(需要帶 ⼀ 定的數據給伺服器不帶數據也可以) 請求頭⾥⾯requestheader 返回數據:response (1)Accept:⽂本的格式 (2)Accept - Encoding:編碼格式 (3)Connection:⻓鏈接 短鏈接 (4)Cookie:驗證⽤的 (5)Host:功能變數名稱 (6)Referer:標誌從哪個⻚⾯跳轉過來的 (7)User - Agent:瀏覽器和⽤戶的信息 2. 爬⾍⼊⻔:使⽤代碼模擬⽤戶 批量的發送⽹絡請求 批量的獲取數據 (1)爬⾍的價值: 1. 買賣數據(⾼端的領域價格特別貴)2. 數據分析:出分析報告 3. 流量 4. 指數阿⾥指數,百度指數 (3)合法性:灰⾊產業 政府沒有法律規定爬⾍是違法的,也沒有法律規定爬⾍是合法的 公司概念:公司讓你爬資料庫(竊取商業機密)責任在公司 (4)爬⾍可以爬取所有東⻄?(不是)爬⾍只能爬取⽤戶能訪問到的數據 愛奇藝的視頻(vip⾮vip) 1. 普通⽤戶 只能看⾮vip 爬取⾮vip的的視頻 2.vip 爬取vip的視頻 3. 普通⽤戶想要爬取vip視頻(⿊客) 爬⾍的分類:(1)通⽤爬⾍ 1. 使⽤搜索引擎:百度 ⾕歌 360 雅⻁ 搜狗 優勢:開放性 速度快 劣勢:⽬標不明確 返回內容:基本上%90是⽤戶不需要的 不清楚⽤戶的需求在哪⾥ (2)聚焦爬⾍(學習) 1. ⽬標明確 2. 對⽤戶的需求⾮常精準 3. 返回的內容很固定 增量式:翻⻚:從第 ⼀ ⻚請求到最後 ⼀ ⻚ Deep 深度爬⾍:靜態數據:html css 動態數據:js代碼,加密的js robots:是否允許其他爬⾍(通⽤爬⾍)爬取某些內容 聚焦爬⾍不遵守robots 爬⾍和反扒做⽃爭:資源對等 勝利的永遠是爬⾍ 爬⾍的⼯作原理: 1. 缺⼈你抓取⽬標的url是哪 ⼀ 個(找) 2. 使⽤python代碼發送請求獲取數據(java Go) 3. 解析獲取到的數據(精確數據)(1)找到新的⽬標(url)回到第 ⼀ 步(⾃動化) 4. 數據持久化 python3(原⽣提供的模塊):urlib.rquest: (1)urlopen : 1. 返回response對象 2.response.read() 3.bytes.decode( " utf - 8 " ) (2)get:傳參 1. 漢字報錯 :解釋器ascii沒有漢字,url漢字轉碼 (3)post (4)handle處理器的⾃定義 (5)urlError python(原⽣提供的):urlib2 接下來將的知識點: 5.request(第三⽅) 6. 數據解析:xpath bs4 7. 數據存儲