python3爬蟲抓取智聯招聘職位信息代碼

-Advertisement-

上代碼，有問題歡迎留言指出。執行完上述代碼後，會在代碼同目錄下創建一個保存職位信息的txt文件，jobDetails.txt。這隻是獲取一頁招聘信息的代碼，後續會添加，如何獲取url和所有頁的招聘信息的代碼。智聯招聘網站還是有一點點小坑的，就是不是所有的招聘職位詳情頁面都是使用智聯的官網格式， ...

上代碼，有問題歡迎留言指出。

# -*- coding: utf-8 -*-
"""
Created on Tue Aug  7 20:41:09 2018
@author: brave-man
blog: http://www.cnblogs.com/zrmw/
"""

import requests
from bs4 import BeautifulSoup
import json

def getDetails(url):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0'}
    res = requests.get(url, headers = headers)
    res.encoding = 'utf-8'
    soup = BeautifulSoup(res.text, 'html.parser')
    soup = json.loads(str(soup))
    
    try:
        with open('jobDetails.txt', 'w') as f:
            print('創建 {} 文件成功'.format('jobDetails.txt'))
    except:
        print('failure')
    
    details = {}    
    for i in soup['data']['results']:
        jobName = i['jobName']
        salary = i['salary']
        company = i['company']['name']
        companyUrl = i['company']['url']
        positionURL = i['positionURL']
        details = {'jobName': jobName,
                   'salary': salary,
                   'company': company,
                   'companyUrl': companyUrl,
                   'positionURL': positionURL
                   }
#        print(details)
        toFile(details)

def toFile(d):
    dj = json.dumps(d)
    try:
        with open('jobDetails.txt', 'a') as f:
            f.write(dj)
#            print('sucessful')
    except:
        print('Error')

def main():
    url = 'https://fe-api.zhaopin.com/c/i/sou?pageSize=60&cityId=635&workExperience=-1&education=-1&companyType=-1&employmentType=-1&jobWelfareTag=-1&kw=python&kt=3&lastUrlQuery={"jl":"635","kw":"python","kt":"3"}'
    getDetails(url)

if __name__ == "__main__":
    main()

執行完上述代碼後，會在代碼同目錄下創建一個保存職位信息的txt文件，jobDetails.txt。

這隻是獲取一頁招聘信息的代碼，後續會添加，如何獲取url和所有頁的招聘信息的代碼。

智聯招聘網站還是有一點點小坑的，就是不是所有的招聘職位詳情頁面都是使用智聯的官網格式，點開某個招聘職位之後，鏈接定向到某公司官網的招聘網站上，後面遇到的時候會具體處理。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

【leetcode 簡單】第九題移除元素

給定一個數組 nums 和一個值 val，你需要原地移除所有數值等於 val 的元素，返回移除後數組的新長度。不要使用額外的數組空間，你必須在原地修改輸入數組併在使用 O(1) 額外空間的條件下完成。元素的順序可以改變。你不需要考慮數組中超出新長度後面的元素。示例 1: 給定 nums = [ ...
基礎需求：讓用戶輸入用戶名密碼認證成功後顯示歡迎信息輸錯三次後退出程式升級需求：可以支持多個用戶登錄 (提示，通過列表存多個賬戶信息) 用戶3次認證失敗後，退出程式，再次啟動程式嘗試登錄時，還是鎖定狀態（提示:需把用戶鎖定的狀態存到文件里）

#在同一目錄創建login.txt文件哦 #打開txt讀取文件 \file = open('login.txt','r+') user = [['zhangsan','1234'],['lisi','1234'],['alex','1234']]data = []for i in file: dat ...
c/c++求解圖的關鍵路徑 critical path

c/c++求解圖的關鍵路徑 critical path 上圖表示一個工程，工程以V1為起始子工程，V9為終止子工程。由圖可以看出，要開工V5工程，必須在完成工程V2和V3後才可以。完成V2需要a1（6）個小時，完成V3需要a2(4)個小時。假設V2和V3同時開工，V3就會提前2個小時完工，但是這 ...
java自學 day9

撲克牌游戲 poker類 player類 playPoker類運行截圖還未完成比較功能，明天繼續完成 ...
JAVAEE——宜立方商城13：訂單系統實現、訂單生成、Mycat資料庫分片

1. 學習計劃 1、訂單系統實現 2、訂單生成 3、Mycat資料庫分片 2. 訂單系統 2.1. 功能分析 1、在購物車頁面點擊“去結算”按鈕，跳轉到訂單確認頁面 a) 必須要求用戶登錄 b) 使用攔截器實現。 c) 如果用戶未登錄跳轉到登錄頁面。 d) 如果用戶已經登錄，放行。展示確認頁面。 e ...
Python筆記（十六）：迭代器

（一）iterable對象和Iterator對象的區別 iterable對象（可迭代的對象）:可以使用for迴圈,例如:字元串、列表、字典、集合等 Iterator對象(迭代器):除了可以用for迴圈外,還可以用next()不斷獲取下一個元素. __iter__() 和__next__()這2個 ...
如今，收入最高編程語言資料彙總！看到就是賺到哦！

加QQ群：838197940免費領取！【Python參考書籍】入門讀物 1.《Python基礎教程》（Beginning Python From Novice to Professional） 2.《Python學習手冊》（Learning Python） 3.《Python編程》（Progra ...
藍橋杯-歷屆試題核桃的數量（最小公倍數）

歷屆試題核桃的數量時間限制：1.0s 記憶體限制：256.0MB 時間限制：1.0s 記憶體限制：256.0MB 問題描述小張是軟體項目經理，他帶領3個開發組。工期緊，今天都在加班呢。為鼓舞士氣，小張打算給每個組發一袋核桃（據傳言能補腦）。他的要求是： 1. 各組的核桃數量必須相同 2. 各組內必 ...