用node寫個爬蟲?看完這篇新手也會

来源:https://www.cnblogs.com/coderhf/archive/2020/05/30/12993041.html
-Advertisement-
Play Games

從node問世以後,就不斷被JavaScript的忠實追隨者拿來乾一些原來只有php、Python等後端語言才能幹的事情,例如寫個爬蟲之類的。對於前端er來說,用上一些好用的輪子,你可能十幾行代碼就可以寫一個crawler哦~ 爬蟲的思路十分簡單: 按照一定的規律發送 HTTP 請求獲得頁面 HTM ...


 

從node問世以後,就不斷被JavaScript的忠實追隨者拿來乾一些原來只有php、Python等後端語言才能幹的事情,例如寫個爬蟲之類的。對於前端er來說,用上一些好用的輪子,你可能十幾行代碼就可以寫一個crawler哦~

 

爬蟲的思路十分簡單:

 

  1. 按照一定的規律發送 HTTP 請求獲得頁面 HTML 源碼(必要時需要加上一定的 HTTP 頭信息,比如 cookie 或 referer 之類)

  2. 利用正則匹配或第三方模塊解析 HTML 代碼,提取有效數據

  3. 將數據持久化到資料庫中

 

當然爬蟲的寫法千千萬,下麵只提供吃瓜群眾都能看懂的版本~

*文章目錄*

    1. 1. *準備階段*

    1.1. NPM

    1.2. package.json

    1.3. crawler.js

    1. 2. *學習階段*

    2.1. REQUEST

    2.2. CHEERIO

  1. 3. *建設階段*

  2. 4. *實驗階段*

*準備階段*

NPM

(npm:趁還沒被yarn幹掉再續一秒)

首先我們需要通過npm安裝兩個模塊reuqestcheerio來幫助我們更方便地請求和 解析頁面

終端cd到你的文件目錄里,先裝上,一會兒我再各自講它們


 

package.json

裝完你可以看到你文件夾里的package.json里已經多了兩個依賴項

 

crawler.js

假設你的爬蟲程式主文件名叫crawler.js,我們需要在這個文件里引入requestcheerio這兩個模塊
js代碼為


準備階段完成後,讓我們開始沉迷於學習階段= =

*學習階段*

REQUEST

request是個非常好用的針對HTTP請求的模塊,簡言之是對 http.request更高級的封裝,口號是——“Simplified HTTP client”

request 這個模塊可以幫你下載資料。使用方式:


隨便來個例子,假設你覺得你自己真是沉迷於學習無法自拔,是我的迷妹/痴漢一隻,你想要隨時監控我博客的內容,那你就這樣寫


不過我建議你們轉去搞LV的( ͡° ͜ʖ ͡°)=>
群瘋之下

(小學妹就不坑LV老師啦,歡迎大家自行尋找他的個人站~)

 

CHEERIO

cheerio模塊可以在伺服器端像使用Jquery的方式一樣操作Dom結構,許多用法和jquery 的語法基本相同,為伺服器特別定製的,快速、靈活、實施的jQuery核心實現。
簡言之,是伺服器端的雞塊瑞(◕ܫ◕)~

Cheerio 幾乎能夠解析任何的 HTML 和 XML document,靈活好用,灰常厲害
只需這麼用:

基礎知識學習完畢,讓我們一起投入到火熱的社會主義建設中去~

*建設階段*

先把request搞上去,明確要爬的頁面,我們要爬的是A站的文章區(我不想搞B站,不想被封號TAT)

我們當然不能拍拍手,我們要用cheerio去解析我們剛請求成功的頁面

最後爬下來的結果我們把它放在result.json文件里


最後把這句話放在request方法里


最終你的
crawler.js看起來是這樣

啊~麻麻~我用16行代碼就寫了個爬蟲~╰(°▽°)╯
慢著,我們先來試驗下是否能成功

*實驗階段*

cd 到你的目錄,敲下激動人心的如下代碼


然後觀察你的文件夾里是否多了個
result.json呢,它看起來應該是如下這樣充滿了大新聞

result.json

 

 

結論

“大清亡於閉關鎖國,學習技術需要交流和資料”。 在這裡我給大家準備了很多的學習資料免費獲取,包括但不限於技術乾貨、大廠面試題系列、技術動向、職業生涯等一切有關程式員的分享

.web前端小白進階方法筆記,學習資料,面試題和視頻,項目源碼免費領取

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、下載地址 https://github.com/MicrosoftArchive/redis/releases 二、安裝 redis 1、打開下載地址,可以看到有安裝包和壓縮包可供選擇,我這裡下載安裝包 2、打開安裝包,安裝,點擊下一步 3、勾選同意協議,下一步 4、選擇安裝路徑,並將redis ...
  • 疫情期間,跟很多做iOS開發的朋友一樣,我被裁員了。原本一直以來,在親朋好友眼中,自己也算是小有所成的人物,從沒想過失業來得這麼快。 被裁那一刻,才真正感覺到什麼叫**“中年危機”**:每個月房貸車貸,加起來接近1萬,家裡兩個小孩,也都正是用錢的時候。多年來,妻子一直在家全職帶小孩,作為全家唯一的經 ...
  • 今天新蘋果機安裝cocoapods,安裝完以後發現怎麼pod search 都沒有用 命令行提示: swhcxp@iosdevmac ~ % pod search Almofire Setup completed [!] Unable to find a pod with name, author, ...
  • 好記性不如爛筆頭。本來就是沒什麼好記得東西,下次再用時已經想不起來了。 問題如下 🐟使用layui表格,表格欄位顯示不全,如果超出分配的位置,就會顯示省略號(如上圖),當滑鼠放上是可以展開查看全部內容。對於備註等不重要欄位這確實是一個不錯的方式,但是對於一些單號狀態,顯示不全就會讓人很難受。 問題 ...
  • web前端是什麼?需要掌握什麼技術?下麵本篇文章給大家介紹一下。有一定的參考價值,有需要的朋友可以參考一下,希望對大家有所幫助。 Web前端開發工程師,主要職責是利用(X)HTML/CSS/JavaScript/Flash等各種Web技術進行客戶端產品的開發。完成客戶端程式(也就是瀏覽器端)的開發, ...
  • # 4.content:內容 - 1. 重置 (1) 更新部分瀏覽器的預設值,在可能變動的文字間距上使用rem代替em (2) 避免使用margin-top。垂直邊緣可能發生重疊,產生無法預料的錯誤。 (3) 為了設備之間輕鬆縮放,block元素應該在margin上採用rem (4) 儘可能使用繼承 ...
  • 摘要 近期在合併拉取代碼,在合併分支代碼時不知做了什麼操作,使用 git pull 命令更新本地代碼失敗,顯示本地分支參考關聯損壞失效。具體的錯誤提示如下圖所示: 解決方案 1、根據錯誤提示,找到本地 .git 中損壞的 ‘refs/remotes/origin/xxx分支名’文件,刪除即可。 2、 ...
  • 摘要 近期開發中遇到導航欄下滑吸頂的需求,經過方案調研,發現position:sticky可以簡單快捷的實現功能。sticky(粘貼定位)可以被認為是相對定位和固定定位的混合,元素在跨越特定閥值前為相對定位,之後為固定定位。根據sticky的特性,只需要添加簡單的幾行CSS樣式代碼即可實現導航欄吸頂 ...
一周排行
    -Advertisement-
    Play Games
  • 基於.NET Framework 4.8 開發的深度學習模型部署測試平臺,提供了YOLO框架的主流系列模型,包括YOLOv8~v9,以及其系列下的Det、Seg、Pose、Obb、Cls等應用場景,同時支持圖像與視頻檢測。模型部署引擎使用的是OpenVINO™、TensorRT、ONNX runti... ...
  • 十年沉澱,重啟開發之路 十年前,我沉浸在開發的海洋中,每日與代碼為伍,與演算法共舞。那時的我,滿懷激情,對技術的追求近乎狂熱。然而,隨著歲月的流逝,生活的忙碌逐漸占據了我的大部分時間,讓我無暇顧及技術的沉澱與積累。 十年間,我經歷了職業生涯的起伏和變遷。從初出茅廬的菜鳥到逐漸嶄露頭角的開發者,我見證了 ...
  • C# 是一種簡單、現代、面向對象和類型安全的編程語言。.NET 是由 Microsoft 創建的開發平臺,平臺包含了語言規範、工具、運行,支持開發各種應用,如Web、移動、桌面等。.NET框架有多個實現,如.NET Framework、.NET Core(及後續的.NET 5+版本),以及社區版本M... ...
  • 前言 本文介紹瞭如何使用三菱提供的MX Component插件實現對三菱PLC軟元件數據的讀寫,記錄了使用電腦模擬,模擬PLC,直至完成測試的詳細流程,並重點介紹了在這個過程中的易錯點,供參考。 用到的軟體: 1. PLC開發編程環境GX Works2,GX Works2下載鏈接 https:// ...
  • 前言 整理這個官方翻譯的系列,原因是網上大部分的 tomcat 版本比較舊,此版本為 v11 最新的版本。 開源項目 從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎,輕嗅薔薇。 系列文章 web server apache tomcat11-01-官方文檔入門介紹 web serv ...
  • 1、jQuery介紹 jQuery是什麼 jQuery是一個快速、簡潔的JavaScript框架,是繼Prototype之後又一個優秀的JavaScript代碼庫(或JavaScript框架)。jQuery設計的宗旨是“write Less,Do More”,即倡導寫更少的代碼,做更多的事情。它封裝 ...
  • 前言 之前的文章把js引擎(aardio封裝庫) 微軟開源的js引擎(ChakraCore))寫好了,這篇文章整點js代碼來測一下bug。測試網站:https://fanyi.youdao.com/index.html#/ 逆向思路 逆向思路可以看有道翻譯js逆向(MD5加密,AES加密)附完整源碼 ...
  • 引言 現代的操作系統(Windows,Linux,Mac OS)等都可以同時打開多個軟體(任務),這些軟體在我們的感知上是同時運行的,例如我們可以一邊瀏覽網頁,一邊聽音樂。而CPU執行代碼同一時間只能執行一條,但即使我們的電腦是單核CPU也可以同時運行多個任務,如下圖所示,這是因為我們的 CPU 的 ...
  • 掌握使用Python進行文本英文統計的基本方法,並瞭解如何進一步優化和擴展這些方法,以應對更複雜的文本分析任務。 ...
  • 背景 Redis多數據源常見的場景: 分區數據處理:當數據量增長時,單個Redis實例可能無法處理所有的數據。通過使用多個Redis數據源,可以將數據分區存儲在不同的實例中,使得數據處理更加高效。 多租戶應用程式:對於多租戶應用程式,每個租戶可以擁有自己的Redis數據源,以確保數據隔離和安全性。 ...