藉助Chrome和插件爬取數據

来源:https://www.cnblogs.com/dahe1989/archive/2019/01/25/9935174.html
-Advertisement-
Play Games

工具 Chrome瀏覽器 TamperMonkey ReRes Chrome瀏覽器 chrome瀏覽器是目前最受歡迎的瀏覽器,沒有之一,它相容大部分的w3c標準和ecma標準,對於前端工程師在開發過程中提供了devtools和插件等工具,非常方便使用。在爬取數據的過程中,最常用的應該是開發工具中的E ...


 

工具

  • Chrome瀏覽器
  • TamperMonkey
  • ReRes

Chrome瀏覽器

chrome瀏覽器是目前最受歡迎的瀏覽器,沒有之一,它相容大部分的w3c標準和ecma標準,對於前端工程師在開發過程中提供了devtools和插件等工具,非常方便使用。在爬取數據的過程中,最常用的應該是開發工具中的Element、Source和Network功能,分別查看DOM結構,源碼和網路請求。同時,有很多基於Chrome瀏覽器的插件又給我們賦予了瀏覽器級別的能力,來處理數據。

TamperMonkey

 Tampermonkey 是一個chrome插件,是一款免費的瀏覽器擴展和最為流行的用戶腳本管理器。簡單來說就是可以指定進入某些頁面的時候調用指定的JS代碼,這樣我們就可以將頁面中的某些數據整理出來,並保存到localStorage或者indexeddb中。

 ReRes

ReRes是一個chrome的插件,它可以支持將某個線上的JS重定向到另一個JS上,也就是用另一個JS來替代原來頁面中的JS,這個新的JS中我們可以修改一部分邏輯來滿足我們的需求。

 

抓取流程

如上圖所示,抓取分為三個步驟,分別是觀察,解刨和抓取。

觀察

首先是觀察,我們需要通過devtools中的Elements和Network標簽頁,對要抓取的頁面進行閱讀,數據可能是在DOM元素中,也可能是通過Ajax介面直接返回,總之找到從哪裡拿數據最合適。

當然,如果數據如果都是Ajax介面的方式返回,都會很容易抓取,但有時候我們可能會碰到比較講究的網站,它們回對數據進行加密,返回的一個亂碼的字元串,這個時候我們需要對代碼進行解剖。

解剖

也就是對頁面中的邏輯代碼進行拆解和分析,找到關鍵的代碼為我所用。通常網站的JS代碼都是混淆和壓縮過的,我們可以使用Chrome開發工具中的Source工具對代碼進行基本的格式化,來方便閱讀。然後簡單介紹一下我尋找關鍵代碼的方法:

  1. 元素標簽尋找法
  2. 元素事件尋找法
  3. Ajax介面名稱尋找法

當然,這裡在尋找關鍵字的時候,需要使用Chrome開發者工具的Search功能。

元素標簽尋找法

當我們找到一個關鍵的DOM元素的時候,你認為頁面JS會對這個元素做操作,比如取值,刪除,等,就可以通過這個元素自帶的id或者class來搜索,通常,這些id和類名是不會被混淆的,可以直接找到。

元素事件尋找法

當我們認為某個元素綁定過click或者其他事件,而且具有重要意義,就可以通過Elements面板中的Event Listeners中尋找最有可能的事件,然後查看對應的JS代碼。

 

當然如果在Elements面板中的DOM結構上直接標記了方法名,如下圖所示,你就可以直接全局Search【CheckInput】。

<input type="submit" name="Editor$Edit$lkbPost" value="發佈草稿" onclick="return CheckInput();" id="Editor_Edit_lkbPost" class="Button">

Ajax介面名稱尋找法

 當我們找到想要的介面的時候,我們在Network中能夠找到這個介面的名稱,直接全局Seach,或者通過Initiator中JS調用的堆棧信息找到具體調用的代碼。

通過這三個步驟,我們基本已經能夠找到我們需要的業務代碼,剩下就是不斷在這個基礎上去找加密和解密的邏輯,同樣是通過打斷點,然後在Source面板中的Callbacks中尋找函數調用的堆棧,然後找到其他的邏輯。

 抓取

抓取數據無非就是將數據通過自動化的方式提取,保存到指定的位置即可。

這裡我們就要依賴我們的兩個插件TamperMonkey和ReRes。我通常將關鍵JS保存到本地進行修改,然後通過使用ReRes將線上JS映射到本地JS上,然後就可以為所欲為,比如,使用封裝好的解密函數解密數據,將數據保存到indexeddb中。

 

使用TamperMonkey主要是來定義一些全局變數,以及開始啟動抓取過程,比如遍歷DOM節點,模擬點擊事件,記錄已抓取的數據的位置。

 

總結

 依賴Chrome瀏覽器去抓取數據,只是一種方便快捷的抓取方式,當然並不是很實用,因為Chrome不能直接操作資料庫,我們的數據還是緩存在了瀏覽器中,導出就需要花點時間。本文只是講了部分抓取數據的思路,具體可以使用Puppeteer、Phantomjs等工具來抓取。

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 前言 原先改變store是通過dispatch(action) = > reducer;那Redux的Middleware是什麼呢?就是dispatch(action) = > reducer過程中搞點事情,既不更改原代碼,還能擴展原有功能,這就是Redux的中間件。 至於Redux的Middlew ...
  • ```javascript function jsonp({url, params, callback}) { return new Promise((resolve, reject) = { let script = document.createElement('script') // call ...
  • 推薦3個小程式開源組件庫 在進行小程式開發時,經常會遇到編寫組件方面的阻礙,這讓我們花費大量的時間在頁面以及 CSS 樣式編寫上。因此可以使用開源組件庫,有些複雜的組件可以直接拿來使用,節省開發時間,避免重覆造輪子。 Vant 由「有贊」團隊維護的開源項目,目前 GitHub 上有 8057 顆 ⭐ ...
  • 超鏈接標簽 <a href="" target="_blank">text</a>,此類標簽通常是超鏈接。其中href後面跟進的是超鏈接的地址,target代表打開新頁面的方式,_blank代表在新的標簽頁打開。 通過超鏈接“text”跳轉到百度首頁。 <!DOCTYPE html> <html l ...
  • CircleLoader 環形loading插件 1.原生JS,不依賴jquery,zepto 2.前端學習交流群:814798690 案例展示 下載地址 https://github.com/chaorenzeng/CircleLoader/archive/master.zip 快速使用 1.引用 ...
  • 前面六篇講解了Vue的一些基礎知識,正所謂:學以致用,今天我們將用前六篇的基礎知識,來實現類似跑馬燈的項目。 學前準備: 需要掌握定時器的兩個函數:setInterval和clearInterval以及作用域的概念 上代碼,大家可以複製下來直接運行看看效果(vue.min.js 第一篇有下載鏈接): ...
  • [toc] 首發日期:2019 1 25 如何在地圖上添加自定義覆蓋物(點) 此文重點是在地圖上標點,所以就省去引入百度地圖的步驟了。 先給一下最終的效果。 這個效果主要是利用百度地圖的“覆蓋物”來實現的。 由於我做的這個要求顯示不同的顏色來代表不同的所屬者,所以就做的麻煩一點。 如果你的需求不要求 ...
  • 由於表情字元占4個位元組(2個unicode字元),在做刪除的時候無法判斷,該退格1個字元,還是2個字元,才是正確的。下麵介紹判斷方法,先看下麵的測試圖 1.字元串的長度不等於看到的字元串中的字元個數 2.字元串的codePoint遍歷可以正確分割出看到的字元 3.charCodeAt和codePoi ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...