用Python玩爬蟲,首先得有一個流程,這個流程最適合小白用!

来源:https://www.cnblogs.com/Python1234/archive/2018/05/20/9064223.html
-Advertisement-
Play Games

爬蟲基本流程 發起請求 通過HTTP庫向目標伺服器發送Request,Request內可以包含額外的headers信息。 獲取響應內容 如果伺服器正常響應,會返回Response, 裡面包含的就是該頁面的內容。 解析數據 內容或許是HTML,可以用正則表達式、網頁解析庫進行解析。 或許是Json,可 ...


爬蟲基本流程

  • 發起請求

    通過HTTP庫向目標伺服器發送Request,Request內可以包含額外的headers信息。

  • 獲取響應內容

    如果伺服器正常響應,會返回Response, 裡面包含的就是該頁面的內容。

  • 解析數據

    內容或許是HTML,可以用正則表達式、網頁解析庫進行解析。

    或許是Json,可以直接轉換為Json對象解析。

  • 保存數據

    可以存儲為文本,也可以保存至資料庫,或其他特定類型文件。

用Python玩爬蟲,首先得有一個流程,這個流程最適合小白用!

Response中包含的內容

  • 響應狀態

    Status Code:200

    即狀態碼,一般200表示響應成功。

  • 響應頭

    Response Headers

    內容類型,內容長度,伺服器信息,設置Cookie等。

  • 響應體

    請求資源的內容,如網頁源代碼,二進位數據等。

用Python玩爬蟲,首先得有一個流程,這個流程最適合小白用!

用Python玩爬蟲,首先得有一個流程,這個流程最適合小白用!

一般做網頁請求的時候,可以先判斷狀態碼是否是200,再取出響應體進行解析。

解析方式

  • 直接處理

  • Json解析

  • 正則表達式

  • BeautifulSoup

  • PyQuery

  • XPath

視情況選擇合適的解析方式。

保存數據

  • 文本保存

    純文本、Json、Xml等。

  • 關係型資料庫保存

    MySQL、Oracle、SQLServer等。

  • 非關係型資料庫保存

    MongoDB、Redis等Key-Value形式存儲。

  • 二進位文件

    圖片、視頻、音頻等特定文件。

Urllib庫

Python內置的HTTP請求庫

模塊說明
urllib.request 請求模塊
urllib.error 異常處理模塊
urllib.parse url解析模塊
urllib.robotparser robots.txt解析模塊

用Python玩爬蟲,首先得有一個流程,這個流程最適合小白用!

用Python玩爬蟲,首先得有一個流程,這個流程最適合小白用!

用Python玩爬蟲,首先得有一個流程,這個流程最適合小白用!

用Python玩爬蟲,首先得有一個流程,這個流程最適合小白用!

歡迎大家關註我的博客:https://home.cnblogs.com/u/Python1234/

歡迎加入千人交流學習群:125240963


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 鏈表是一種常見的基礎數據結構,它是一種線性表,但在記憶體中它並不是順序存儲的,它是以鏈式進行存儲的,每一個節點里存放的是下一個節點的“指針”。在Java中的數據分為引用數據類型和基礎數據類型,在Java中不存在指針的概念,但是對於鏈表而言的指針,指的就是引用數據類型的地址。 鏈表和數組都是線性的數據結 ...
  • 編寫登陸介面 基礎需求: 讓用戶輸入用戶名密碼 認證成功後顯示歡迎信息 輸錯三次後退出程式 升級需求: 可以支持多個用戶登錄 (提示,通過列表存多個賬戶信息) 用戶3次認證失敗後,退出程式,再次啟動程式嘗試登錄時,還是鎖定狀態(提示:需把用戶鎖定的狀態存到文件里) 註:需要先創建一個lock_fil ...
  • 學校的伺服器可以上外網了,所以打算寫一個自動爬取笑話併發到bbs的東西,從網上搜了一個笑話網站,感覺大部分還不太冷,html結構如下: 可以看到,笑話的鏈接列表都在<div class="list_title">裡面,用正則表達式可以把最近的幾個笑話地址找出來,再進到一個笑話頁面看下: 每一個笑話頁 ...
  • 更多案例請關註我的博客:home.cnblogs.com/u/Python1234 歡迎大家加入千人交流資源共用群:125240963 表示什麼都沒有 如果函數沒有返回值,可以返回 None 用來占位 表示什麼都沒有 如果函數沒有返回值,可以返回 None 用來占位 三、內置數據結構 list se ...
  • 第一步 刪除工作空間的/.metadata/.plugins/org.eclipse.core.runtime/.settings/com.genuitec.eclipse.ast.deploy.core.prefs文件 第二步 取消項目自動部署 項目-->右鍵Properties-->Builde ...
  • eclipse將java源代碼生成jar可執行文件 用eclipse做了一個web項目的自動化測試,自己用的時候倒是很方便,打開eclipse直接運行即可,但是分享給其他小伙伴用的時候就不太方便,希望可以生成一個可執行的文件,別人使用時,直接運行就可以。實際操作了一下,記錄下步驟。 1.文件一定要有 ...
  • 分析:既然是訂單號/交易流水號,首先是不能重覆,其次需考慮到性能問題。 設計如下: "HF"+時間戳+隨機數+迴圈數 代碼如下: 其中:RandomUtils類 1 package com.test.common.util; 2 3 import org.apache.commons.lang.Ra ...
  • 演示站:c.lmz8.cn打開js/4.js,複製到工具箱的js代碼整理那,先解密,方便查看。工具箱:tool.lmz8.cnjs代碼整理、線上解碼 這個便是文字,只不過唄轉碼了,所以要用到解碼工具。內容更改:index.html(裡面的網址改了,否則會跳轉到我的網站)js/4.js(網址、照片、音 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...