Python之爬蟲小例子

来源:https://www.cnblogs.com/hsiang/archive/2020/06/13/13121404.html
-Advertisement-
Play Games

不知從何時起,Python和爬蟲就如初戀一般,情不知所起,一往而深,相信很多朋友學習Python,都是從爬蟲開始,其實究其原因,不外兩方面:其一Python對爬蟲的支持度比較好,類庫眾多。其二Pyhton的語法簡單,入門容易。所以兩者形影相隨,不離不棄,本文主要以一個簡單的小例子,簡述Python在... ...


概述

不知從何時起,Python和爬蟲就如初戀一般,情不知所起,一往而深,相信很多朋友學習Python,都是從爬蟲開始,其實究其原因,不外兩方面:其一Python對爬蟲的支持度比較好,類庫眾多。其二Pyhton的語法簡單,入門容易。所以兩者形影相隨,不離不棄,本文主要以一個簡單的小例子,簡述Python在爬蟲方面的簡單應用,僅供學習分享使用,如有不足之處,還請指正。

涉及知識點

本例主要爬取51job發佈的工作職位,用到的知識點如下:

  • 開發環境及工具:主要用到Python3.7 ,IDE為PyCharm
  • requests類庫:本類庫封裝了python的內置模塊,主要用於網路的請求和獲取數據,可以支持不同形式的請求。
  • BeautifulSoup庫:主要用於解析獲取的數據,包括Html,Xml,Json等不同的格式。
  • 數據持久化:主要是將記憶體中的數據,保存到資料庫或者文件中。

爬蟲的基本步驟

爬蟲的基本步驟,如下圖所示:

 

 

爬取目標

如有要爬取相關內容,首先要對爬取的目標進行分析,瞭解其目錄結構,才能進行解析。本例主要爬取51job中的工作列表,如下所示:

核心源碼

1.獲取數據

定義一個函數get_data,用於發起請求並獲取數據,如下所示:

headers中的User-Agent主要用於模擬瀏覽器,不然會被反爬蟲程式屏蔽,http狀態碼為418,意思是被網站的反爬程式返回的。

encoding是要爬取的網站的編碼為gbk,如果不加,會產生亂碼,預設為utf-8

 1 def get_data(req_url):
 2     """獲取數據"""
 3     headers = {
 4         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko',
 5         'Accept-Language': 'zh-Hans-CN, zh-Hans;q=0.5'
 6     }
 7     resp = requests.get(req_url, headers=headers)
 8     resp.encoding = 'gbk'  # 不加會產生中文亂碼
 9     if resp.status_code == 200:
10         return resp.text
11     else:
12         return None

 

2.解析數據

定義一個函數parse_data,用於解析獲取到的內容,如下所示:

 

採用BeautifulSoup,將返回的文本,解析成html對象,並獲取對應的內容。本例主要獲取工作的列表

 1 def parse_data(resp_html):
 2     """解析數據,並返回列表"""
 3     soup = BeautifulSoup(resp_html, features='html.parser')
 4     job_table = soup.find('div', attrs={'class': 'dw_table'})
 5     # print(job_table)
 6     job_list = job_table.find_all('div', attrs={'class': 'el'})
 7     # print(job_list)
 8     # 迴圈列表,去掉第一個title和最後一個
 9     res_list = []
10     for job in job_list[1: -1]:
11         job_name = job.find('p', attrs={'class': "t1"}).find('span').find('a').get_text()
12         job_name = job_name.replace('\r\n', '').strip()
13         job_company = job.find('span', attrs={'class': "t2"}).find('a').get_text()
14         job_addr = job.find('span', attrs={'class': "t3"}).get_text()
15         job_salary = job.find('span', attrs={'class': "t4"}).get_text()
16         job_time = job.find('span', attrs={'class': "t5"}).get_text()
17         # print('工作信息:', job_name, '---', job_company, '---', job_addr, '---', job_salary, '---', job_time)
18         res_item = {
19             '工作名稱': job_name,
20             '公司': job_company,
21             '工作地址': job_addr,
22             '薪資水平': job_salary,
23             '發佈時間': job_time
24         }
25         res_list.append(res_item)
26     return res_list

3.保存數據

定義一個函數save_data,用於將獲取到的內容保存到json文件中,如下所示:

with函數 可以自動進行釋放。因包含中文,所以json文件的編碼為utf-8,否則會出現亂碼

1 def save_data(res_list):
2     """保存數據"""
3     with open('jobs.json', 'w', encoding='utf-8') as f:
4         res_list_json = json.dumps(res_list, ensure_ascii=False)
5         f.write(res_list_json)

4.整體調用步驟

依次調用定義的三個函數,如下所示:

 1 if __name__ == '__main__':
 2     """如果是主程式自己調用"""
 3     req_url = 'https://search.51job.com/list/040000,000000,0000,00,9,99,java,2,1.html?lang=c&stype=1&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='
 4     # 獲取數據
 5     resp_html = get_data(req_url)
 6     # print(html)
 7     # 解析數據
 8     res_list = parse_data(resp_html)
 9     # 保存數據
10     save_data(res_list)

爬取結果展示

爬取的結果保存在jobs.json文件中,如下所示:

  1 [
  2   {
  3     "工作名稱": "Java架構師",
  4     "公司": "深圳市鑽木信息技術有限公司",
  5     "工作地址": "深圳-福田區",
  6     "薪資水平": "1.8-3萬/月",
  7     "發佈時間": "06-13"
  8   },
  9   {
 10     "工作名稱": "Java實習生 6k起",
 11     "公司": "深圳市智玩創新科技有限公司",
 12     "工作地址": "深圳-福田區",
 13     "薪資水平": "6-8千/月",
 14     "發佈時間": "06-13"
 15   },
 16   {
 17     "工作名稱": "Java實習生6k起",
 18     "公司": "深圳市康姆達科技有限公司",
 19     "工作地址": "深圳-南山區",
 20     "薪資水平": "6-8千/月",
 21     "發佈時間": "06-13"
 22   },
 23   {
 24     "工作名稱": "Java開發工程師",
 25     "公司": "深圳市網新新思軟體有限公司",
 26     "工作地址": "深圳-南山區",
 27     "薪資水平": "1.5-1.7萬/月",
 28     "發佈時間": "06-13"
 29   },
 30   {
 31     "工作名稱": "Java開發工程師",
 32     "公司": "深圳市睿服科技有限公司",
 33     "工作地址": "深圳-福田區",
 34     "薪資水平": "1.3-1.7萬/月",
 35     "發佈時間": "06-13"
 36   },
 37   {
 38     "工作名稱": "Java開發經理",
 39     "公司": "深圳市聚惠企業登記代理有限公司",
 40     "工作地址": "深圳-龍華新區",
 41     "薪資水平": "1-3萬/月",
 42     "發佈時間": "06-13"
 43   },
 44   {
 45     "工作名稱": "高級JAVA",
 46     "公司": "深圳易加油信息科技有限公司",
 47     "工作地址": "深圳-南山區",
 48     "薪資水平": "1.5-2.1萬/月",
 49     "發佈時間": "06-13"
 50   },
 51   {
 52     "工作名稱": "Java高級開發工程師",
 53     "公司": "深圳市綠聯科技有限公司",
 54     "工作地址": "深圳-龍華新區",
 55     "薪資水平": "2-3萬/月",
 56     "發佈時間": "06-13"
 57   },
 58   {
 59     "工作名稱": "Java開發工程師",
 60     "公司": "深圳市博悅科創科技有限公司",
 61     "工作地址": "深圳-南山區",
 62     "薪資水平": "1-1.5萬/月",
 63     "發佈時間": "06-13"
 64   },
 65   {
 66     "工作名稱": "Java高級開發工程師",
 67     "公司": "易普森智慧健康科技(深圳)有限公...",
 68     "工作地址": "深圳",
 69     "薪資水平": "1.5-2.5萬/月",
 70     "發佈時間": "06-13"
 71   },
 72   {
 73     "工作名稱": "Java開發工程師",
 74     "公司": "深圳易世通達科技有限公司",
 75     "工作地址": "深圳-南山區",
 76     "薪資水平": "1.2-1.8萬/月",
 77     "發佈時間": "06-13"
 78   },
 79   {
 80     "工作名稱": "Java開發工程師",
 81     "公司": "蘇州今融加科技有限公司",
 82     "工作地址": "深圳-福田區",
 83     "薪資水平": "1.5-2萬/月",
 84     "發佈時間": "06-13"
 85   },
 86   {
 87     "工作名稱": "Java後端開發工程師",
 88     "公司": "深圳市長隆科技有限公司",
 89     "工作地址": "深圳-龍崗區",
 90     "薪資水平": "1.5-2萬/月",
 91     "發佈時間": "06-13"
 92   },
 93   {
 94     "工作名稱": "Java開發工程師",
 95     "公司": "深圳市元諾智能系統有限公司",
 96     "工作地址": "深圳-龍華新區",
 97     "薪資水平": "1-1.5萬/月",
 98     "發佈時間": "06-13"
 99   },
100   {
101     "工作名稱": "java 有物流類經驗",
102     "公司": "深圳市歐恩德技術有限公司",
103     "工作地址": "深圳-羅湖區",
104     "薪資水平": "0.8-1.1萬/月",
105     "發佈時間": "06-13"
106   },
107   {
108     "工作名稱": "Java開發工程師-2020校園招聘",
109     "公司": "金蝶軟體(中國)有限公司",
110     "工作地址": "深圳-南山區",
111     "薪資水平": "0.8-1.6萬/月",
112     "發佈時間": "06-13"
113   },
114   {
115     "工作名稱": "Java高級開發工程師",
116     "公司": "豐疆智能科技股份有限公司",
117     "工作地址": "深圳-南山區",
118     "薪資水平": "2.5-3萬/月",
119     "發佈時間": "06-13"
120   },
121   {
122     "工作名稱": "JAVA軟體開發工程師",
123     "公司": "深圳市吉星時代科技有限公司",
124     "工作地址": "深圳-龍崗區",
125     "薪資水平": "2-3萬/月",
126     "發佈時間": "06-13"
127   },
128   {
129     "工作名稱": "JAVA 高級軟體工程師",
130     "公司": "相通網路技術有限公司",
131     "工作地址": "深圳-福田區",
132     "薪資水平": "1.5-3萬/月",
133     "發佈時間": "06-13"
134   },
135   {
136     "工作名稱": "JAVA開發工程師(接受應屆生)",
137     "公司": "深圳市智岩科技有限公司",
138     "工作地址": "深圳-南山區",
139     "薪資水平": "0.8-1萬/月",
140     "發佈時間": "06-13"
141   },
142   {
143     "工作名稱": "Java後臺開發工程師",
144     "公司": "深圳市炬馳科技發展有限公司",
145     "工作地址": "深圳",
146     "薪資水平": "1-1.5萬/月",
147     "發佈時間": "06-13"
148   },
149   {
150     "工作名稱": "Java開發工程師",
151     "公司": "深圳市韶音科技有限公司",
152     "工作地址": "深圳-寶安區",
153     "薪資水平": "0.8-1萬/月",
154     "發佈時間": "06-13"
155   },
156   {
157     "工作名稱": "JAVA 開發工程師",
158     "公司": "深圳市優博訊科技股份有限公司",
159     "工作地址": "深圳-南山區",
160     "薪資水平": "1-1.5萬/月",
161     "發佈時間": "06-13"
162   },
163   {
164     "工作名稱": "Java開發工程師",
165     "公司": "深圳市有豆科技有限公司",
166     "工作地址": "深圳-寶安區",
167     "薪資水平": "1.8-3萬/月",
168     "發佈時間": "06-13"
169   },
170   {
171     "工作名稱": "Saas平臺架構師(Java方向)",
172     "公司": "深圳市智布互聯紡織科技有限公司",
173     "工作地址": "深圳-南山區",
174     "薪資水平": "1.7-2.5萬/月",
175     "發佈時間": "06-13"
176   },
177   {
178     "工作名稱": "Java開發實習生",
179     "公司": "雲軟科技",
180     "工作地址": "深圳-寶安區",
181     "薪資水平": "6-9千/月",
182     "發佈時間": "06-13"
183   },
184   {
185     "工作名稱": "Java高級開發工程師",
186     "公司": "深圳市阿爾法智匯科技有限公司",
187     "工作地址": "深圳-寶安區",
188     "薪資水平": "2-4萬/月",
189     "發佈時間": "06-13"
190   },
191   {
192     	   

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Windows安裝多個python解釋器 ​ 在windows10系統下安裝兩個不同版本的的python解釋器,在通常情況下編譯執行文件都是沒問題的,但是載入或下載包的時候pip的使用就會出現問題,無法下載一直報錯 ​ 僅對cpython有效 一、virtualenvwrapper-win的安裝 v ...
  • 最近很多同學因為學校的要求,需要完成自己的那個C語言課程設計,於是就有很多人私信或者加我私聊我,問的最多的還是《學生成績管理系統》,其實當你項目寫多了你就會發現:其實各類的管理系統都離不開一個核心——鏈表! 是的,不管是你想要寫學生成績管理系統,宿舍管理系統、火車票管理系統亦或者還是旅游管理系統等等 ...
  • ###1,描繪記憶體 ###2,new/malloc 與 delete/free new、delete是運算符 malloc()函數只負責留出一塊一定大小的記憶體,它不知道或關心對象本身。調用new不僅會分配正確大小的記憶體,還會調用相應的構造函數以構建對象。 free()和delete與上面類似,del ...
  • 前言 本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。 生活中我們會拍很多的證件照,有的要求紅底,有的是白底,有的是藍底,今天不通過摳圖,實現一鍵換底片!想換什麼換什麼 知識點: 1.圖像處理 2.OpenCV 3.numpy 4 ...
  • Windows下C,C++開發環境搭建指南 前情提要 基於近一段時間很多網友發郵件反饋,說一些項目編譯出現問題,諸如此類的情況。 就覺得很有必要寫一篇C,C++開發環境的小指南,統一回覆。 1.君欲善其事必先利其器 1.1.輔助開發利器推薦 作為一個老碼農,有一些個人長期使用的輔助工具,分享給大家, ...
  • 疫情原因,我也不得不走上了面試之路,先是在網上收集了各種面試資料,再是閉關啃題看源碼。這一路走來的辛酸,在拿到offer的那一刻讓我覺得是值得的。為了讓大家多吸取一些經驗能順利的進大廠,順便把我自己的一些能用上的資料分享給大家,希望對大家有所幫助,早日進入心儀的大廠!年薪百萬! ...
  • 在JDBC中使用預編譯PreparedStatement 以及它的優點 步驟 1 : 使用PreparedStatement 和 Statement一樣,PreparedStatement也是用來執行sql語句的 與創建Statement不同的是,需要根據sql語句創建PreparedStateme ...
  • SQL--事務 博客說明 文章所涉及的資料來自互聯網整理和個人總結,意在於個人學習和經驗彙總,如有什麼地方侵權,請聯繫本人刪除,謝謝! 概念 如果一個包含多個步驟的業務操作,被事務管理,那麼這些操作要麼同時成功,要麼同時失敗 操作 1. 開啟事務: start transaction; 2. 回滾: ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...