用node寫個爬蟲？看完這篇新手也會

-Advertisement-

從node問世以後，就不斷被JavaScript的忠實追隨者拿來乾一些原來只有php、Python等後端語言才能幹的事情，例如寫個爬蟲之類的。對於前端er來說，用上一些好用的輪子，你可能十幾行代碼就可以寫一個crawler哦~ 爬蟲的思路十分簡單: 按照一定的規律發送 HTTP 請求獲得頁面 HTM ...

從node問世以後，就不斷被JavaScript的忠實追隨者拿來乾一些原來只有php、Python等後端語言才能幹的事情，例如寫個爬蟲之類的。對於前端er來說，用上一些好用的輪子，你可能十幾行代碼就可以寫一個crawler哦~

爬蟲的思路十分簡單:

按照一定的規律發送 HTTP 請求獲得頁面 HTML 源碼（必要時需要加上一定的 HTTP 頭信息，比如 cookie 或 referer 之類）

利用正則匹配或第三方模塊解析 HTML 代碼，提取有效數據

將數據持久化到資料庫中

當然爬蟲的寫法千千萬，下麵只提供吃瓜群眾都能看懂的版本~

＊文章目錄＊

1. ＊準備階段＊

1.1. NPM

1.2. package.json

1.3. crawler.js

2. ＊學習階段＊

2.1. REQUEST

2.2. CHEERIO

3. ＊建設階段＊
4. ＊實驗階段＊

＊準備階段＊

NPM

(npm:趁還沒被yarn幹掉再續一秒）

首先我們需要通過npm安裝兩個模塊reuqest和cheerio來幫助我們更方便地請求和 解析頁面

終端cd到你的文件目錄里，先裝上，一會兒我再各自講它們

package.json

裝完你可以看到你文件夾里的package.json里已經多了兩個依賴項

crawler.js

假設你的爬蟲程式主文件名叫crawler.js,我們需要在這個文件里引入request和cheerio這兩個模塊
js代碼為

準備階段完成後，讓我們開始沉迷於學習階段= =

＊學習階段＊

REQUEST

request是個非常好用的針對HTTP請求的模塊，簡言之是對 http.request更高級的封裝,口號是——“Simplified HTTP client”

request 這個模塊可以幫你下載資料。使用方式：

隨便來個例子，假設你覺得你自己真是沉迷於學習無法自拔，是我的迷妹/痴漢一隻，你想要隨時監控我博客的內容，那你就這樣寫

不過我建議你們轉去搞LV的( ͡° ͜ʖ ͡°)=>群瘋之下

（小學妹就不坑LV老師啦，歡迎大家自行尋找他的個人站～）

CHEERIO

cheerio模塊可以在伺服器端像使用Jquery的方式一樣操作Dom結構，許多用法和jquery 的語法基本相同，為伺服器特別定製的，快速、靈活、實施的jQuery核心實現。
簡言之，是伺服器端的雞塊瑞(◕ܫ◕)~

Cheerio 幾乎能夠解析任何的 HTML 和 XML document，靈活好用，灰常厲害
只需這麼用：

基礎知識學習完畢，讓我們一起投入到火熱的社會主義建設中去~

＊建設階段＊

先把request搞上去，明確要爬的頁面，我們要爬的是A站的文章區(我不想搞B站，不想被封號TAT)

我們當然不能拍拍手，我們要用cheerio去解析我們剛請求成功的頁面

最後爬下來的結果我們把它放在result.json文件里

最後把這句話放在request方法里

最終你的crawler.js看起來是這樣

啊~麻麻~我用16行代碼就寫了個爬蟲~╰(°▽°)╯
慢著，我們先來試驗下是否能成功

＊實驗階段＊

cd 到你的目錄，敲下激動人心的如下代碼

然後觀察你的文件夾里是否多了個result.json呢，它看起來應該是如下這樣充滿了大新聞

result.json

結論

“大清亡於閉關鎖國，學習技術需要交流和資料”。在這裡我給大家準備了很多的學習資料免費獲取,包括但不限於技術乾貨、大廠面試題系列、技術動向、職業生涯等一切有關程式員的分享

.web前端小白進階方法筆記,學習資料,面試題和視頻,項目源碼免費領取

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

windows 下安裝 redis

一、下載地址 https://github.com/MicrosoftArchive/redis/releases 二、安裝 redis 1、打開下載地址，可以看到有安裝包和壓縮包可供選擇，我這裡下載安裝包 2、打開安裝包，安裝，點擊下一步 3、勾選同意協議，下一步 4、選擇安裝路徑，並將redis ...
失業56天後，靠著這份資料，我從無人問津到手握4個大廠offer

疫情期間，跟很多做iOS開發的朋友一樣，我被裁員了。原本一直以來，在親朋好友眼中，自己也算是小有所成的人物，從沒想過失業來得這麼快。被裁那一刻，才真正感覺到什麼叫**“中年危機”**：每個月房貸車貸，加起來接近1萬，家裡兩個小孩，也都正是用錢的時候。多年來，妻子一直在家全職帶小孩，作為全家唯一的經 ...
萬能解決方案之徹底解決macOS cocoapods環境的所有問題

今天新蘋果機安裝cocoapods，安裝完以後發現怎麼pod search 都沒有用命令行提示： swhcxp@iosdevmac ~ % pod search Almofire Setup completed [!] Unable to find a pod with name, author, ...
layui表格欄位表格顯示不全（自適應）

好記性不如爛筆頭。本來就是沒什麼好記得東西，下次再用時已經想不起來了。問題如下 🐟使用layui表格，表格欄位顯示不全，如果超出分配的位置，就會顯示省略號（如上圖），當滑鼠放上是可以展開查看全部內容。對於備註等不重要欄位這確實是一個不錯的方式，但是對於一些單號狀態，顯示不全就會讓人很難受。問題 ...
web前端是什麼？需要掌握什麼技術？

web前端是什麼？需要掌握什麼技術？下麵本篇文章給大家介紹一下。有一定的參考價值，有需要的朋友可以參考一下，希望對大家有所幫助。 Web前端開發工程師，主要職責是利用(X)HTML/CSS/JavaScript/Flash等各種Web技術進行客戶端產品的開發。完成客戶端程式（也就是瀏覽器端）的開發， ...
4.content：內容

# 4.content：內容 - 1. 重置 (1) 更新部分瀏覽器的預設值，在可能變動的文字間距上使用rem代替em (2) 避免使用margin-top。垂直邊緣可能發生重疊，產生無法預料的錯誤。 (3) 為了設備之間輕鬆縮放，block元素應該在margin上採用rem (4) 儘可能使用繼承 ...
解決git pull拉取更新代碼失敗，unable to resolve reference ‘refs/remotes/origin/xxx分支名’: reference broken問題

摘要近期在合併拉取代碼，在合併分支代碼時不知做了什麼操作，使用 git pull 命令更新本地代碼失敗，顯示本地分支參考關聯損壞失效。具體的錯誤提示如下圖所示：解決方案 1、根據錯誤提示，找到本地 .git 中損壞的 ‘refs/remotes/origin/xxx分支名’文件，刪除即可。 2、 ...
position: sticky實現導航欄下滑吸頂效果

摘要近期開發中遇到導航欄下滑吸頂的需求，經過方案調研，發現position：sticky可以簡單快捷的實現功能。sticky（粘貼定位）可以被認為是相對定位和固定定位的混合，元素在跨越特定閥值前為相對定位，之後為固定定位。根據sticky的特性，只需要添加簡單的幾行CSS樣式代碼即可實現導航欄吸頂 ...