簡單的用Python採集獵聘招聘數據內容,並做可視化分析!

来源:https://www.cnblogs.com/hahaa/archive/2023/07/19/17566494.html
-Advertisement-
Play Games

現在剛畢業,很多小伙伴因為找不到工作或者找了很多也不喜歡,再有懶一點的,太熱了根本不想出門到處找。 所以今天給大家分享如何在家就能找到心儀工作 使用Python批量採集招聘數據,進行可視化分析,輕鬆找到心儀工作! 話不多說,我們直接開始~ 準備工作 軟體工具 Python 3.8 Pycharm 谷 ...


現在剛畢業,很多小伙伴因為找不到工作或者找了很多也不喜歡,再有懶一點的,太熱了根本不想出門到處找。

所以今天給大家分享如何在家就能找到心儀工作

使用Python批量採集招聘數據,進行可視化分析,輕鬆找到心儀工作!

話不多說,我們直接開始~

準備工作

軟體工具

  • Python 3.8
  • Pycharm
  • 谷歌瀏覽器
  • 谷歌驅動

selenium --> 自動化測試模塊
模擬人的行為去操作瀏覽器

手動操作

  1. 打開瀏覽器
  2. 輸入網址
  3. 找到我們需要的數據內容
  4. 手動複製粘貼放到表格文件

模塊使用

selenium  # pip install selenium==3.141.0 自動化測試 操作瀏覽器
csv  # 保存數據 保存csv文件

 

win + R 輸入cmd 輸入安裝命令 pip install 模塊名 (如果你覺得安裝速度比較慢, 你可以切換國內鏡像源)

數據獲取部分代碼

打開瀏覽器

瀏覽器驅動選擇以及下載:

  • 查看瀏覽器版本
  • 驅動版本選擇和你瀏覽器版本最相近的
  • 驅動文件<不需要雙擊安裝>, 直接放到你python安裝目錄裡面

主要代碼

driver = webdriver.Chrome()
# 訪問網站
# 完整代碼+視頻講解+軟體工具領取
# 直接加這個摳裙:592539176
driver.get(
    'https://www.liepin.com/zhaopin/?inputFrom=www_index&workYearCode=0&key=python&scene=input&ckId=rn8762mqhk78fi3d9fiqzzoobk7f66u9&dq=')
"""
找到我們需要的數據內容
    前提 -> 你要讓網頁元素<數據>載入出來
    通過元素定位, 獲取數據內容 <通過標簽提取數據> 
"""
# 設置延時, 讓網頁元素載入完整
driver.implicitly_wait(10)  # 隱式等待, 只要網頁載入出來就運行下麵的代碼
time.sleep(1)  # 死等, 一定要等夠
# 獲取所有招聘信息對應div標簽
divs = driver.find_elements_by_css_selector('.job-list-box div .job-card-left-box')
# print(driver) # webdriver.Chrome() 返回selenium對象
# print(divs)  # 返回列表, 列表裡面元素是selenium對象
for div in divs:
    """
    提取具體數據內容, 提取每個div標簽裡面所包含的數據內容
        .job-title-box div.ellipsis-1
    """
    # 職位
    title = div.find_element_by_css_selector('.job-title-box div.ellipsis-1').text
    # 城市
    city = div.find_element_by_css_selector('.job-title-box span.ellipsis-1').text
    salary = div.find_element_by_css_selector('.job-salary').text
    # 列表推導式
    info_list = [i.text for i in div.find_elements_by_css_selector('.job-labels-box .labels-tag')]
    print(info_list)
    exp = info_list[0]
    edu = info_list[1]
    labels = ','.join(info_list[2:])
    company = div.find_element_by_css_selector('.company-name').text
    company_type = div.find_element_by_css_selector('.company-tags-box span').text
    company_num = div.find_element_by_css_selector('.company-tags-box span:last-of-type').text
    href = div.find_element_by_css_selector('.job-detail-box a').get_attribute('href')
    dit = {
        '職位': title,
        '城市': city,
        '薪資': salary,
        '經驗': exp,
        '學歷': edu,
        '技術點': labels,
        '公司': company,
        '公司領域': company_type,
        '公司規模': company_num,
        '詳情頁': href,
    }
    csv_writer.writerow(dit)
    print(dit)

 

保存表格

f = open('python.csv', mode='w', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '職位',
    '城市',
    '薪資',
    '經驗',
    '學歷',
    '技術點',
    '公司',
    '公司領域',
    '公司規模',
    '詳情頁',
])
csv_writer.writeheader()

 

可視化展示

讀取文件

import pandas as pd

df = pd.read_csv('data.csv')
df.head()

 

python職位學歷需求分佈

from pyecharts import options as opts
from pyecharts.charts import Pie
from pyecharts.globals import CurrentConfig, NotebookType
CurrentConfig.NOTEBOOK_TYPE = NotebookType.JUPYTER_LAB
c = (
    Pie()
    .add(
        "",
        [
            list(z)
            for z in zip(
                edu_type,
                edu_num,
            )
        ],
        center=["40%", "50%"],
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="python職位學歷需求分佈"),
        legend_opts=opts.LegendOpts(type_="scroll", pos_left="80%", orient="vertical"),
    )
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
    
)
c.load_javascript()

 

python職位學歷需求分佈

edu_num = df['經驗'].value_counts().to_list()
edu_type = df['經驗'].value_counts().index.to_list()
c = (
    Pie()
    .add(
        "",
        [
            list(z)
            for z in zip(
                edu_type,
                edu_num,
            )
        ],
        center=["40%", "50%"],
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="python職位經驗需求分佈"),
        legend_opts=opts.LegendOpts(type_="scroll", pos_left="80%", orient="vertical"),
    )
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
    
)
c.render_notebook()

 

python職位城市分佈

edu_num = df['城市'].str[:2].value_counts().to_list()
edu_type = df['城市'].str[:2].value_counts().index.to_list()
c = (
    Pie()
    .add(
        "",
        [
            list(z)
            for z in zip(
                edu_type,
                edu_num,
            )
        ],
        center=["40%", "50%"],
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="python職位城市分佈"),
        legend_opts=opts.LegendOpts(type_="scroll", pos_left="80%", orient="vertical"),
    )
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
    
)
c.render_notebook()

 

python公司領域分佈

edu_num = df['公司領域'].value_counts().to_list()
edu_type = df['公司領域'].value_counts().index.to_list()
c = (
    Pie()
    .add(
        "",
        [
            list(z)
            for z in zip(
                edu_type,
                edu_num,
            )
        ],
        center=["40%", "50%"],
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="python公司領域分佈"),
        legend_opts=opts.LegendOpts(type_="scroll", pos_left="80%", orient="vertical"),
    )
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
    
)
c.render_notebook()

 

好了今天的分享就到這結束了,咱們下次再見!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 這裡給大家分享我在網上總結出來的一些知識,希望對大家有所幫助 背景 最近有一個頁面改版的需求,在UI走查階段,設計師說原來的輪播組件和新版頁面UI整體風格不搭,所以要換掉。 這裡就涉及到兩種輪播組件,一種是傳統的輪播組件,一種是設計師要的那種。 傳統的輪播組件,大家都見過,原理也清楚,就是把要輪播的 ...
  • 好家伙,學習新工具 1.為什麼我們需要包管理器? 關於npm我們已經知道了,這是我們項目的包管理器, 我們現在用的無比順手的工具,都是在無數的競爭中殺出來的,他們淘汰了無數的產品 首先,倘若我們不使用npm,那麼我們應該如何去新建一個前端項目? 純手工,把我們項目需要的項目一個個下載到我們的項目裡面 ...
  • 一.Input中的字元串按數字規則替換 1. 包含正號,負號,小數點的浮點數 本身的正則替換是無法單次實現完美替換的, 這個方法會刪掉用於匹配的一些數字, 優點是它能保證輸入的合法性, 缺點是刪去的部分需要重新輸入 1 if (str.length 1) { 2 newStr = str.repla ...
  • # Vue引用js文件的多種方式 **1.vue-cli webpack全局引入jquery** (1)首先 npm install jquery --save (--save 的意思是將模塊安裝到項目目錄下,併在package文件的dependencies節點寫入依賴。) (2)在webpack. ...
  • ##### 什麼是JWT - JWT 是一個開放標準,它定義了一種用於簡潔,自包含的用於通信雙方之間以 JSON 對象的形式安全傳遞信息的方法。 可以使用 HMAC 演算法或者是 RSA 的公鑰密鑰對進行簽名 - **簡單來說: 就是通過一定規範來生成token,然後可以通過解密演算法逆向解密token ...
  • 日常分析數據時,只有單一數據文件的情況其實很少見,更多的情況是,我們從同一個數據來源定期或不定期的採集了很多數據文件;或者從不同的數據源採集多種不同格式的數據文件。 在這樣的情況下,分析數據之前,需要將不同的數據集合併起來。合併數據一般有兩個維度,一是同構的數據集合併後行數增加;一是異構的數據集合併 ...
  • # 1.模塊re - 以一定規則,快速檢索文本,或是實現一些替換操作 - 預設下,區分大小寫 # 2.常見的匹配字元表 | 字元 | 描述 | | : : | : : | | \d | 代表任意數字,就是阿拉伯數字 0-9 這些 | | `\D` | 代表非數字的字元。與\d完全相反 | | `\w ...
  • **容器註冊表**是Docker容器鏡像的集中存儲和分發系統。它允許開發人員以這些鏡像的形式輕鬆共用和部署應用程式。容器註冊表在容器化應用程式的部署中發揮著關鍵作用,因為它們提供了一種快速、可靠和安全的方式,在各種生產環境中分發容器鏡像。 以下是當今流行的容器註冊表列表: - **Docker Hu ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...