每天一點爬蟲(一)

来源:http://www.cnblogs.com/Jeffding/archive/2017/12/22/8087161.html
-Advertisement-
Play Games

開始爬蟲之旅。 認識爬蟲 網路爬蟲(又被稱為網頁蜘蛛,網路機器人,spider),是一種按照一定的規則,自動地抓取互聯網信息的程式或者腳本。通俗的講就是通過程式自動去獲取web頁面上自己想要的數據。 主要就是模擬瀏覽器打開網頁,獲取網頁中我們想要的那部分數據。 簡單的說一下瀏覽器打開網頁的過程:在瀏 ...


  開始爬蟲之旅。

認識爬蟲

  網路爬蟲(又被稱為網頁蜘蛛,網路機器人,spider),是一種按照一定的規則,自動地抓取互聯網信息的程式或者腳本。通俗的講就是通過程式自動去獲取web頁面上自己想要的數據。

  主要就是模擬瀏覽器打開網頁,獲取網頁中我們想要的那部分數據。

  簡單的說一下瀏覽器打開網頁的過程:在瀏覽器中輸入地址後,經過DNS伺服器找到伺服器主機,向伺服器發送一個請求,伺服器經過解析後發送給用戶瀏覽器結果,包括html,js,css等文件內容,瀏覽器解析出來最後呈現給用戶,最後就是用戶看到的瀏覽器顯示部分了。用戶看到的瀏覽器的結果就是由HTML代碼構成的,我們爬蟲就是為了獲取這些內容,通過分析和過濾html代碼,從中獲取我們想要資源。

  爬蟲的基本流程主要分為4步:

  第一步、發起請求:通過HTTP庫向目標站點發起請求,也就是發送一個Request,請求可以包含額外的header等信息,等待伺服器響應。

  第二步、獲取響應內容:如果伺服器能正常響應,會得到一個Response,Response的內容便是所要獲取的頁面內容,類型可能是HTML,Json字元串,二進位數據(圖片或者視頻)等類型。

  第三步、解析內容:得到的內容可能是HTML,可以用正則表達式,頁面解析庫進行解析,可能是Json,可以直接轉換為Json對象解析,可能是二進位數據,可以做保存或者進一步的處理。

  第四步、保存數據:保存形式多樣,可以存為文本,也可以保存到資料庫,或者保存特定格式的文件。

  在發送請求階段,請求方式主要有GET/POST兩種類型,還有一些其他方式但是不常用。

  請求頭包含User-Agent,Host,Cookies等信息,請求體是攜帶的數據,如提交表單數據時候的表單數據。

  伺服器端會根據請求信息給出相應的響應,包括狀態碼,響應頭和響應體,響應體裡面就是我們請求的資源內容。

  從理論上來說,我們請求到什麼資源就等於爬取什麼樣的資源,但是由於很多網站中的數據都是通過js,ajax動態載入的,所以直接通過get請求獲取的頁面和瀏覽器顯示的不同。後面的隨著學習的深入我們會有方法解決js渲染等問題。

  解析爬下來的數據的方式:

  1. 直接處理;
  2. Json解析;
  3. 正則表達式處理;
  4. BeautifulSoup解析處理;
  5. PyQuery解析處理;
  6. XPath解析處理。

  存儲數據的方式:

  1. 文本:純文本,Json,Xml等;
  2. 關係型資料庫:如mysql,oracle,sql server等結構化資料庫;
  3. 非關係型資料庫:MongoDB,Redis等key-value形式存儲。

  瞭解了爬蟲是什麼,接下來我們就開始爬蟲之旅了。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 使用While迴圈時經常會犯的一些小錯誤。以及猜年齡程式的2種編寫方式。 ...
  • 為什麼要用插件 主要還是自動化的考慮,如果額外使用Dockerfile進行鏡像生成,可能會需要自己手動指定jar/war位置,並且打包和生成鏡像間不同步,帶來很多瑣碎的工作。 插件選擇 使用比較多的是spotify的插件:https://github.com/spotify/docker maven ...
  • 關於本文說明,本人原博客地址位於http://blog.csdn.net/qq_37608890,本文來自筆者於2017年12月06日 18:06:30所撰寫內容(http://blog.csdn.net/qq_37608890/article/details/78731169)。 本文根據最近學習 ...
  • Trie樹與AC自動機 作為現階段的學習中個人應有的常識,AC自動機形象的來講就是在Trie樹上跑的一個KMP。由此,我們就先來談一談Trie樹。(有圖) 1. Trie樹 又稱單詞查找樹,字典樹,一般用於字元串的匹配。它利用公共的字元串首碼進行查詢,減少了無謂的操作,是空間換時間的經典演算法。舉例: ...
  • 本文秉承著 你看不懂是你sb,我寫的代碼就要牛逼 的理念來介紹一些js的裝逼技巧。 下麵的技巧,後三個,請謹慎用於團隊項目中(主要考慮到可讀性的問題),不然,leader 乾你沒商量。 [圖片上傳失敗...(image-922e98-1513315809572)] image.png Boolean ...
  • 在2017年末,Face++發了一篇論文[ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices ](https://arxiv.org/abs/1707.01083)討論了一個極有效率且可... ...
  • Java基礎 進程和線程的區別; Java的併發、多線程、線程模型; 什麼是線程池,如何使用? 數據一致性如何保證;Synchronized關鍵字,類鎖,方法鎖,重入鎖; Java中實現多態的機制是什麼; 如何將一個Java對象序列化到文件里; 說說你對Java反射的理解; 同步的方法;多進程開發以 ...
  • 0引言 隨著萬維網的發展和大數據時代的到來,每天都有大量的數字化信息在生產、存儲、傳遞和轉化,如何從大量的信息中以一定的方式找到滿足自己需求的信息,使之有序化並加以利用成為一大難題。全文檢索技術是現如今最普遍的信息查詢應用,生活中利用搜索引擎,在博客論壇中查找信息,這些搜索的核心原理就是本文要實現的 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...