每天一點爬蟲(一)

来源:http://www.cnblogs.com/Jeffding/archive/2017/12/22/8087161.html
-Advertisement-
Play Games

開始爬蟲之旅。 認識爬蟲 網路爬蟲(又被稱為網頁蜘蛛,網路機器人,spider),是一種按照一定的規則,自動地抓取互聯網信息的程式或者腳本。通俗的講就是通過程式自動去獲取web頁面上自己想要的數據。 主要就是模擬瀏覽器打開網頁,獲取網頁中我們想要的那部分數據。 簡單的說一下瀏覽器打開網頁的過程:在瀏 ...


  開始爬蟲之旅。

認識爬蟲

  網路爬蟲(又被稱為網頁蜘蛛,網路機器人,spider),是一種按照一定的規則,自動地抓取互聯網信息的程式或者腳本。通俗的講就是通過程式自動去獲取web頁面上自己想要的數據。

  主要就是模擬瀏覽器打開網頁,獲取網頁中我們想要的那部分數據。

  簡單的說一下瀏覽器打開網頁的過程:在瀏覽器中輸入地址後,經過DNS伺服器找到伺服器主機,向伺服器發送一個請求,伺服器經過解析後發送給用戶瀏覽器結果,包括html,js,css等文件內容,瀏覽器解析出來最後呈現給用戶,最後就是用戶看到的瀏覽器顯示部分了。用戶看到的瀏覽器的結果就是由HTML代碼構成的,我們爬蟲就是為了獲取這些內容,通過分析和過濾html代碼,從中獲取我們想要資源。

  爬蟲的基本流程主要分為4步:

  第一步、發起請求:通過HTTP庫向目標站點發起請求,也就是發送一個Request,請求可以包含額外的header等信息,等待伺服器響應。

  第二步、獲取響應內容:如果伺服器能正常響應,會得到一個Response,Response的內容便是所要獲取的頁面內容,類型可能是HTML,Json字元串,二進位數據(圖片或者視頻)等類型。

  第三步、解析內容:得到的內容可能是HTML,可以用正則表達式,頁面解析庫進行解析,可能是Json,可以直接轉換為Json對象解析,可能是二進位數據,可以做保存或者進一步的處理。

  第四步、保存數據:保存形式多樣,可以存為文本,也可以保存到資料庫,或者保存特定格式的文件。

  在發送請求階段,請求方式主要有GET/POST兩種類型,還有一些其他方式但是不常用。

  請求頭包含User-Agent,Host,Cookies等信息,請求體是攜帶的數據,如提交表單數據時候的表單數據。

  伺服器端會根據請求信息給出相應的響應,包括狀態碼,響應頭和響應體,響應體裡面就是我們請求的資源內容。

  從理論上來說,我們請求到什麼資源就等於爬取什麼樣的資源,但是由於很多網站中的數據都是通過js,ajax動態載入的,所以直接通過get請求獲取的頁面和瀏覽器顯示的不同。後面的隨著學習的深入我們會有方法解決js渲染等問題。

  解析爬下來的數據的方式:

  1. 直接處理;
  2. Json解析;
  3. 正則表達式處理;
  4. BeautifulSoup解析處理;
  5. PyQuery解析處理;
  6. XPath解析處理。

  存儲數據的方式:

  1. 文本:純文本,Json,Xml等;
  2. 關係型資料庫:如mysql,oracle,sql server等結構化資料庫;
  3. 非關係型資料庫:MongoDB,Redis等key-value形式存儲。

  瞭解了爬蟲是什麼,接下來我們就開始爬蟲之旅了。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 使用While迴圈時經常會犯的一些小錯誤。以及猜年齡程式的2種編寫方式。 ...
  • 為什麼要用插件 主要還是自動化的考慮,如果額外使用Dockerfile進行鏡像生成,可能會需要自己手動指定jar/war位置,並且打包和生成鏡像間不同步,帶來很多瑣碎的工作。 插件選擇 使用比較多的是spotify的插件:https://github.com/spotify/docker maven ...
  • 關於本文說明,本人原博客地址位於http://blog.csdn.net/qq_37608890,本文來自筆者於2017年12月06日 18:06:30所撰寫內容(http://blog.csdn.net/qq_37608890/article/details/78731169)。 本文根據最近學習 ...
  • Trie樹與AC自動機 作為現階段的學習中個人應有的常識,AC自動機形象的來講就是在Trie樹上跑的一個KMP。由此,我們就先來談一談Trie樹。(有圖) 1. Trie樹 又稱單詞查找樹,字典樹,一般用於字元串的匹配。它利用公共的字元串首碼進行查詢,減少了無謂的操作,是空間換時間的經典演算法。舉例: ...
  • 本文秉承著 你看不懂是你sb,我寫的代碼就要牛逼 的理念來介紹一些js的裝逼技巧。 下麵的技巧,後三個,請謹慎用於團隊項目中(主要考慮到可讀性的問題),不然,leader 乾你沒商量。 [圖片上傳失敗...(image-922e98-1513315809572)] image.png Boolean ...
  • 在2017年末,Face++發了一篇論文[ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices ](https://arxiv.org/abs/1707.01083)討論了一個極有效率且可... ...
  • Java基礎 進程和線程的區別; Java的併發、多線程、線程模型; 什麼是線程池,如何使用? 數據一致性如何保證;Synchronized關鍵字,類鎖,方法鎖,重入鎖; Java中實現多態的機制是什麼; 如何將一個Java對象序列化到文件里; 說說你對Java反射的理解; 同步的方法;多進程開發以 ...
  • 0引言 隨著萬維網的發展和大數據時代的到來,每天都有大量的數字化信息在生產、存儲、傳遞和轉化,如何從大量的信息中以一定的方式找到滿足自己需求的信息,使之有序化並加以利用成為一大難題。全文檢索技術是現如今最普遍的信息查詢應用,生活中利用搜索引擎,在博客論壇中查找信息,這些搜索的核心原理就是本文要實現的 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...