現在剛畢業,很多小伙伴因為找不到工作或者找了很多也不喜歡,再有懶一點的,太熱了根本不想出門到處找。 所以今天給大家分享如何在家就能找到心儀工作 使用Python批量採集招聘數據,進行可視化分析,輕鬆找到心儀工作! 話不多說,我們直接開始~ 準備工作 軟體工具 Python 3.8 Pycharm 谷 ...
現在剛畢業,很多小伙伴因為找不到工作或者找了很多也不喜歡,再有懶一點的,太熱了根本不想出門到處找。
所以今天給大家分享如何在家就能找到心儀工作
使用Python批量採集招聘數據,進行可視化分析,輕鬆找到心儀工作!
話不多說,我們直接開始~
準備工作
軟體工具
- Python 3.8
- Pycharm
- 谷歌瀏覽器
- 谷歌驅動
selenium --> 自動化測試模塊
模擬人的行為去操作瀏覽器
手動操作
- 打開瀏覽器
- 輸入網址
- 找到我們需要的數據內容
- 手動複製粘貼放到表格文件
模塊使用
selenium # pip install selenium==3.141.0 自動化測試 操作瀏覽器 csv # 保存數據 保存csv文件
win + R 輸入cmd 輸入安裝命令 pip install 模塊名 (如果你覺得安裝速度比較慢, 你可以切換國內鏡像源)
數據獲取部分代碼
打開瀏覽器
瀏覽器驅動選擇以及下載:
- 查看瀏覽器版本
- 驅動版本選擇和你瀏覽器版本最相近的
- 驅動文件<不需要雙擊安裝>, 直接放到你python安裝目錄裡面
主要代碼
driver = webdriver.Chrome() # 訪問網站 # 完整代碼+視頻講解+軟體工具領取 # 直接加這個摳裙:592539176 driver.get( 'https://www.liepin.com/zhaopin/?inputFrom=www_index&workYearCode=0&key=python&scene=input&ckId=rn8762mqhk78fi3d9fiqzzoobk7f66u9&dq=') """ 找到我們需要的數據內容 前提 -> 你要讓網頁元素<數據>載入出來 通過元素定位, 獲取數據內容 <通過標簽提取數據> """ # 設置延時, 讓網頁元素載入完整 driver.implicitly_wait(10) # 隱式等待, 只要網頁載入出來就運行下麵的代碼 time.sleep(1) # 死等, 一定要等夠 # 獲取所有招聘信息對應div標簽 divs = driver.find_elements_by_css_selector('.job-list-box div .job-card-left-box') # print(driver) # webdriver.Chrome() 返回selenium對象 # print(divs) # 返回列表, 列表裡面元素是selenium對象 for div in divs: """ 提取具體數據內容, 提取每個div標簽裡面所包含的數據內容 .job-title-box div.ellipsis-1 """ # 職位 title = div.find_element_by_css_selector('.job-title-box div.ellipsis-1').text # 城市 city = div.find_element_by_css_selector('.job-title-box span.ellipsis-1').text salary = div.find_element_by_css_selector('.job-salary').text # 列表推導式 info_list = [i.text for i in div.find_elements_by_css_selector('.job-labels-box .labels-tag')] print(info_list) exp = info_list[0] edu = info_list[1] labels = ','.join(info_list[2:]) company = div.find_element_by_css_selector('.company-name').text company_type = div.find_element_by_css_selector('.company-tags-box span').text company_num = div.find_element_by_css_selector('.company-tags-box span:last-of-type').text href = div.find_element_by_css_selector('.job-detail-box a').get_attribute('href') dit = { '職位': title, '城市': city, '薪資': salary, '經驗': exp, '學歷': edu, '技術點': labels, '公司': company, '公司領域': company_type, '公司規模': company_num, '詳情頁': href, } csv_writer.writerow(dit) print(dit)
保存表格
f = open('python.csv', mode='w', encoding='utf-8', newline='') csv_writer = csv.DictWriter(f, fieldnames=[ '職位', '城市', '薪資', '經驗', '學歷', '技術點', '公司', '公司領域', '公司規模', '詳情頁', ]) csv_writer.writeheader()
可視化展示
讀取文件
import pandas as pd df = pd.read_csv('data.csv') df.head()
python職位學歷需求分佈
from pyecharts import options as opts from pyecharts.charts import Pie from pyecharts.globals import CurrentConfig, NotebookType CurrentConfig.NOTEBOOK_TYPE = NotebookType.JUPYTER_LAB c = ( Pie() .add( "", [ list(z) for z in zip( edu_type, edu_num, ) ], center=["40%", "50%"], ) .set_global_opts( title_opts=opts.TitleOpts(title="python職位學歷需求分佈"), legend_opts=opts.LegendOpts(type_="scroll", pos_left="80%", orient="vertical"), ) .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}")) ) c.load_javascript()
python職位學歷需求分佈
edu_num = df['經驗'].value_counts().to_list() edu_type = df['經驗'].value_counts().index.to_list() c = ( Pie() .add( "", [ list(z) for z in zip( edu_type, edu_num, ) ], center=["40%", "50%"], ) .set_global_opts( title_opts=opts.TitleOpts(title="python職位經驗需求分佈"), legend_opts=opts.LegendOpts(type_="scroll", pos_left="80%", orient="vertical"), ) .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}")) ) c.render_notebook()
python職位城市分佈
edu_num = df['城市'].str[:2].value_counts().to_list() edu_type = df['城市'].str[:2].value_counts().index.to_list() c = ( Pie() .add( "", [ list(z) for z in zip( edu_type, edu_num, ) ], center=["40%", "50%"], ) .set_global_opts( title_opts=opts.TitleOpts(title="python職位城市分佈"), legend_opts=opts.LegendOpts(type_="scroll", pos_left="80%", orient="vertical"), ) .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}")) ) c.render_notebook()
python公司領域分佈
edu_num = df['公司領域'].value_counts().to_list() edu_type = df['公司領域'].value_counts().index.to_list() c = ( Pie() .add( "", [ list(z) for z in zip( edu_type, edu_num, ) ], center=["40%", "50%"], ) .set_global_opts( title_opts=opts.TitleOpts(title="python公司領域分佈"), legend_opts=opts.LegendOpts(type_="scroll", pos_left="80%", orient="vertical"), ) .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}")) ) c.render_notebook()
好了今天的分享就到這結束了,咱們下次再見!