用node寫個爬蟲?看完這篇新手也會

来源:https://www.cnblogs.com/coderhf/archive/2020/05/30/12993041.html
-Advertisement-
Play Games

從node問世以後,就不斷被JavaScript的忠實追隨者拿來乾一些原來只有php、Python等後端語言才能幹的事情,例如寫個爬蟲之類的。對於前端er來說,用上一些好用的輪子,你可能十幾行代碼就可以寫一個crawler哦~ 爬蟲的思路十分簡單: 按照一定的規律發送 HTTP 請求獲得頁面 HTM ...


 

從node問世以後,就不斷被JavaScript的忠實追隨者拿來乾一些原來只有php、Python等後端語言才能幹的事情,例如寫個爬蟲之類的。對於前端er來說,用上一些好用的輪子,你可能十幾行代碼就可以寫一個crawler哦~

 

爬蟲的思路十分簡單:

 

  1. 按照一定的規律發送 HTTP 請求獲得頁面 HTML 源碼(必要時需要加上一定的 HTTP 頭信息,比如 cookie 或 referer 之類)

  2. 利用正則匹配或第三方模塊解析 HTML 代碼,提取有效數據

  3. 將數據持久化到資料庫中

 

當然爬蟲的寫法千千萬,下麵只提供吃瓜群眾都能看懂的版本~

*文章目錄*

    1. 1. *準備階段*

    1.1. NPM

    1.2. package.json

    1.3. crawler.js

    1. 2. *學習階段*

    2.1. REQUEST

    2.2. CHEERIO

  1. 3. *建設階段*

  2. 4. *實驗階段*

*準備階段*

NPM

(npm:趁還沒被yarn幹掉再續一秒)

首先我們需要通過npm安裝兩個模塊reuqestcheerio來幫助我們更方便地請求和 解析頁面

終端cd到你的文件目錄里,先裝上,一會兒我再各自講它們


 

package.json

裝完你可以看到你文件夾里的package.json里已經多了兩個依賴項

 

crawler.js

假設你的爬蟲程式主文件名叫crawler.js,我們需要在這個文件里引入requestcheerio這兩個模塊
js代碼為


準備階段完成後,讓我們開始沉迷於學習階段= =

*學習階段*

REQUEST

request是個非常好用的針對HTTP請求的模塊,簡言之是對 http.request更高級的封裝,口號是——“Simplified HTTP client”

request 這個模塊可以幫你下載資料。使用方式:


隨便來個例子,假設你覺得你自己真是沉迷於學習無法自拔,是我的迷妹/痴漢一隻,你想要隨時監控我博客的內容,那你就這樣寫


不過我建議你們轉去搞LV的( ͡° ͜ʖ ͡°)=>
群瘋之下

(小學妹就不坑LV老師啦,歡迎大家自行尋找他的個人站~)

 

CHEERIO

cheerio模塊可以在伺服器端像使用Jquery的方式一樣操作Dom結構,許多用法和jquery 的語法基本相同,為伺服器特別定製的,快速、靈活、實施的jQuery核心實現。
簡言之,是伺服器端的雞塊瑞(◕ܫ◕)~

Cheerio 幾乎能夠解析任何的 HTML 和 XML document,靈活好用,灰常厲害
只需這麼用:

基礎知識學習完畢,讓我們一起投入到火熱的社會主義建設中去~

*建設階段*

先把request搞上去,明確要爬的頁面,我們要爬的是A站的文章區(我不想搞B站,不想被封號TAT)

我們當然不能拍拍手,我們要用cheerio去解析我們剛請求成功的頁面

最後爬下來的結果我們把它放在result.json文件里


最後把這句話放在request方法里


最終你的
crawler.js看起來是這樣

啊~麻麻~我用16行代碼就寫了個爬蟲~╰(°▽°)╯
慢著,我們先來試驗下是否能成功

*實驗階段*

cd 到你的目錄,敲下激動人心的如下代碼


然後觀察你的文件夾里是否多了個
result.json呢,它看起來應該是如下這樣充滿了大新聞

result.json

 

 

結論

“大清亡於閉關鎖國,學習技術需要交流和資料”。 在這裡我給大家準備了很多的學習資料免費獲取,包括但不限於技術乾貨、大廠面試題系列、技術動向、職業生涯等一切有關程式員的分享

.web前端小白進階方法筆記,學習資料,面試題和視頻,項目源碼免費領取

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、下載地址 https://github.com/MicrosoftArchive/redis/releases 二、安裝 redis 1、打開下載地址,可以看到有安裝包和壓縮包可供選擇,我這裡下載安裝包 2、打開安裝包,安裝,點擊下一步 3、勾選同意協議,下一步 4、選擇安裝路徑,並將redis ...
  • 疫情期間,跟很多做iOS開發的朋友一樣,我被裁員了。原本一直以來,在親朋好友眼中,自己也算是小有所成的人物,從沒想過失業來得這麼快。 被裁那一刻,才真正感覺到什麼叫**“中年危機”**:每個月房貸車貸,加起來接近1萬,家裡兩個小孩,也都正是用錢的時候。多年來,妻子一直在家全職帶小孩,作為全家唯一的經 ...
  • 今天新蘋果機安裝cocoapods,安裝完以後發現怎麼pod search 都沒有用 命令行提示: swhcxp@iosdevmac ~ % pod search Almofire Setup completed [!] Unable to find a pod with name, author, ...
  • 好記性不如爛筆頭。本來就是沒什麼好記得東西,下次再用時已經想不起來了。 問題如下 🐟使用layui表格,表格欄位顯示不全,如果超出分配的位置,就會顯示省略號(如上圖),當滑鼠放上是可以展開查看全部內容。對於備註等不重要欄位這確實是一個不錯的方式,但是對於一些單號狀態,顯示不全就會讓人很難受。 問題 ...
  • web前端是什麼?需要掌握什麼技術?下麵本篇文章給大家介紹一下。有一定的參考價值,有需要的朋友可以參考一下,希望對大家有所幫助。 Web前端開發工程師,主要職責是利用(X)HTML/CSS/JavaScript/Flash等各種Web技術進行客戶端產品的開發。完成客戶端程式(也就是瀏覽器端)的開發, ...
  • # 4.content:內容 - 1. 重置 (1) 更新部分瀏覽器的預設值,在可能變動的文字間距上使用rem代替em (2) 避免使用margin-top。垂直邊緣可能發生重疊,產生無法預料的錯誤。 (3) 為了設備之間輕鬆縮放,block元素應該在margin上採用rem (4) 儘可能使用繼承 ...
  • 摘要 近期在合併拉取代碼,在合併分支代碼時不知做了什麼操作,使用 git pull 命令更新本地代碼失敗,顯示本地分支參考關聯損壞失效。具體的錯誤提示如下圖所示: 解決方案 1、根據錯誤提示,找到本地 .git 中損壞的 ‘refs/remotes/origin/xxx分支名’文件,刪除即可。 2、 ...
  • 摘要 近期開發中遇到導航欄下滑吸頂的需求,經過方案調研,發現position:sticky可以簡單快捷的實現功能。sticky(粘貼定位)可以被認為是相對定位和固定定位的混合,元素在跨越特定閥值前為相對定位,之後為固定定位。根據sticky的特性,只需要添加簡單的幾行CSS樣式代碼即可實現導航欄吸頂 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...