python3爬取拉鉤招聘數據_ZenDei技術網路在線

python3爬取拉鉤招聘數據

-Advertisement-

使用python爬去拉鉤數據第一步:下載所需模塊 requests 進入cmd命令 :pip install requests 回車聯網自動下載 xlwt 進入cmd命令 :pip install xlwt 回車聯網自動下載 ... ...


使用python爬去拉鉤數據
    第一步:下載所需模塊
            requests 進入cmd命令 :pip install requests 回車 聯網自動下載
            xlwt     進入cmd命令 :pip install  xlwt 回車 聯網自動下載
    第二步：找到你要爬去的網頁（我爬去的是拉鉤網）
        選擇瀏覽器 （火狐、谷歌）我使用的谷歌抓包
        編碼工具 （idea）（ pyCharm）我使用的idea

import requests #導入下載過的requesta
import xlwt #導入下載過的xlwt
#用谷歌找到對應的網頁，按f12進入檢查

　　 #NetWork,XHR裡面有一個headers裡面找
headers={
    #第一個電腦和伺服器信息，
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36',#電腦和伺服器信息
    #第二個是你從哪裡進入的拉鉤網，沒有這個以為是機器人訪問。
    'Referer':'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=',
    #第三個為了辨別身份，有的網站需要，有的不需要
    'Cookie':'user_trace_token=20170921093258-cc8e4c13-9e6c-11e7-9d07-525400f775ce; LGUID=20170921093258-cc8e52b6-9e6c-11e7-9d07-525400f775ce; index_location_city=%E5%85%A8%E5%9B%BD; JSESSIONID=ABAAABAACEBACDGD4C15CDA891A7242B76AA4F9B7450B8B; _gat=1; PRE_UTM=; PRE_HOST=www.sogou.com; PRE_SITE=https%3A%2F%2Fwww.sogou.com%2Flink%3Furl%3DhedJjaC291NlQquFD-D9iKfCABISWiMgDLW1Nx6fG3psqHL_zYlG_a3mlRzfPLR2; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2Fgongsi%2Fj75915.html; TG-TRACK-CODE=index_search; _gid=GA1.2.405703854.1505957562; _ga=GA1.2.1930895945.1505957562; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1505957579,1505957596,1505957630,1505969456; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1505969469; LGSID=20170921125112-7dcd03f6-9e88-11e7-9d2f-525400f775ce; LGRID=20170921125125-85aaed04-9e88-11e7-91fb-5254005c3644; SEARCH_ID=746090bf111a497aa55f7f1b8dabffd2'#來路，你是從哪個頁面點入的
}
#data對應的是分頁pn為1就相當於第一頁
def getJobList(page):
    data={
        'first':'false',
        'pn': page,
        'kd': 'python'
    }
    #發起一個post請求，指的當前網頁的鏈接
    res=requests.post('https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult='
'false&isSchoolJob=0',data=data,headers=headers)
    result=res.json()#將裡面的數據以json格式展示類似於（key,value）
    jobs=result['content']['positionResult']['result'] #每個對應查找
    return jobs#結果返回

excelTabel= xlwt.Workbook()#創建excel對象
sheet1=excelTabel.add_sheet('lagou',cell_overwrite_ok=True)
sheet1.write(0,0,'公司名')#公司名
sheet1.write(0,1,'城市')#城市
sheet1.write(0,2,'地區')#地區
sheet1.write(0,3,'全職/簡直')#全職/簡直
sheet1.write(0,4,'薪資')#薪資
sheet1.write(0,5,'職位')#職位
sheet1.write(0,6,'工作年限')#工作年限
sheet1.write(0,7,'公司規模')#公司規模
sheet1.write(0,8,'學歷')#學歷
n=1
for page in range(1,31):#迴圈輸出每一頁
    for job in getJobList(page=page):
        #下麵的if判斷可以加也可以不加
        if '1-3'in job['workYear'] and '後端開發'in job['secondType'] and '本科'in job['education']: # and '朝陽區'in job['district']
            sheet1.write(n,0,job['companyFullName'])#公司名
            sheet1.write(n,1,job['city'])#城市
            sheet1.write(n,2,job['district'])#地區
            sheet1.write(n,3,job['jobNature'])#全職/簡直
            sheet1.write(n,4,job['salary'])#薪資
            sheet1.write(n,5,job['secondType'])#職位
            sheet1.write(n,6,job['workYear'])#工作年限
            sheet1.write(n,7,job['companySize'])#公司規模
            sheet1.write(n,8,job['education'])#學歷
            n+=1
#列印到wps的表格裡面
excelTabel.save('lagou.xlsx')

其實準備好圖片的單不知道怎麼插入到上面，

但是複製上面代碼可以爬取出數據然後再慢慢研究（headers裡面的根據個人的不同來更換）

python3 :

　　　　輸入和輸出

　　　　　　　　str():函數返回一個用戶易讀的表達形式

　　　　　　　　　　　　str.format()替換輸出語句中的{}，跟其他字元串拼接

　　　　　　　　repr():產生一個解析器易讀的表達形式

　　　　　　　　　　　　repr()函數可以轉義字元串中的特殊字元

　　　　　　　　　　　　repr()的參數可以是python的任何對象

　　　　讀和寫文件

　　　　　　　　open(filename,mode)將會返回一個file對象

　　　　　　　　　　　　filename:變數是一個包含了你要訪問的文件名得字元串

　　　　　　　　　　　　mode:決定了打開文件的模式，預設的是只讀

　　　　　　　　f=open('c\foo.txt',w):

　　　　　　　　str=f.read()

　　　　　　　　print(str)

　　　　　　　　f.close():關閉打開的文件

　　　　　　　　f.readline():會從文件中讀取單獨的一行

　　　　　　　　f.readlines():返迴文件中包含的所有行

　　　　　　　　f.write('aaaa'):將aaaa寫入到文件中，然後返回寫入的文件字元數

　　　　　　　　f.tell()返回當前對象所處的位置

　　　　　　　　f.seek()：改變文件當前位置

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

使用dynamic來簡化反射實現,調用指定方法或構造函數

dynamic是Framework4.0的新特性，dynamic的出現讓C#具有了弱語言類型的特性，編譯器在編譯的時候，不再對類型進行檢查，不會報錯，但是運行時如果執行的是不存在的屬性或者方法，運行程式還是會拋出RuntimeBinderException異常。 var 與 dynamic 的區別 ...
最近使用 .NET Core 遇到的一些坑

最近.NET Core升級到2.0後開始慢慢搗鼓的多了起來，但遇到了不少坑,所以特來記錄下。第一個坑條件編譯符我們在編寫一些方法的時候通常會為Debug模式增加一些輸出日誌等以便我們檢查，也會為Release模式增加或修改一些特定的參數，但今天我在寫這些的時候就遇到了這個坑#if !DEBUG ...
背水一戰 Windows 10 (65) - 控制項（WebView）: 對 WebView 中的內容截圖, 通過 Share Contract 分享 WebView 中的被選中的內容

背水一戰 Windows 10 之控制項（WebView）: 對 WebView 中的內容截圖, 通過 Share Contract 分享 WebView 中的被選中的內容 ...
lintcode First Unique Number In Stream

lintcode ：First Unique Number In Stream ...
Cheat sheet for Jupyter Notebook

近期，DataCamp發佈了jupyter notebook的 cheat sheet，【Python數據之道】第一時間與大家一起來分享下該cheat sheet的內容。以下是該cheat sheet的部分內容：各位小伙伴可以從DataCamp的網站獲取該cheat sheet的pdf版，當然， ...
P3183 [HAOI2016]食物鏈

題目描述如圖所示為某生態系統的食物網示意圖，據圖回答第1小題現在給你n個物種和m條能量流動關係，求其中的食物鏈條數。物種的名稱為從1到n編號M條能量流動關係形如a1 b1a2 b2a3 b3......am-1 bm-1am bm其中ai bi表示能量從物種ai流向物種bi,註意單獨的一種孤立生物 ...
JVM菜鳥進階高手之路七（tomcat調優以及tomcat7、8性能對比）

轉載請註明原創出處，謝謝！因為每個鏈路都會對其性能造成影響，應該是全鏈路的修改壓測（ak大神經常說全鏈路!）。本次基本就是區域網，所以並沒有怎麼優化，其實也應該考慮進去的。 Linux系統參數層面的修改： 1. 修改可打開文件數和用戶最多可開發進程數命令：可以通過ulimit –a查看參數 ...
筆記--Day2--python基礎2

一、雞湯 1.提高自我修養 2.人醜就要多讀書 3.多走走，開拓眼界二、目錄： 1.列表、元組操作 2.字元串操作 3.字典操作 dict是無序的 key必須是唯一的 4.集合操作集合是一個無序的，不重覆的數據組合，它的主要作用如下：去重，把一個列表變成集合，就自動去重了關係測試，測試兩組數 ...