我的爬蟲自學之旅_ZenDei技術網路在線

我的爬蟲自學之旅

-Advertisement-

電子版參考書：https://pan.baidu.com/s/15R08yEjLDj8FxrBwnUaTyA 註：僅限網上學習交流，如有侵權請聯繫我我們一起學習┏(＾0＾)┛ 自我介紹，我是一個python邁過基礎游蕩在爬蟲自學之路的一隻小螞蟻。在電腦編程漫長枯燥的道路上，很多技術博客幫助了我， ...

電子版參考書：https://pan.baidu.com/s/15R08yEjLDj8FxrBwnUaTyA 註：僅限網上學習交流，如有侵權請聯繫我

我們一起學習┏(＾0＾)┛

自我介紹，我是一個python邁過基礎游蕩在爬蟲自學之路的一隻小螞蟻。在電腦編程漫長枯燥的道路上，很多技術博客幫助了我，心懷感激，想把自己的經歷也記錄下來，這是我的第一篇博客，如有瑕疵請多包涵，謝謝~對了，如果你也是自學入門的，來試試hackerrank.com，我只是需要一個隊友~你會有不一樣的感受的^_^

安裝第三方庫經常報錯：error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools

下載：https://download.microsoft.com/download/5/f/7/5f7acaeb-8363-451f-9425-68a90f98b238/visualcppbuildtools_full.exe?fixForIE=.exe. 安裝挺久，但一勞永逸有木有哈哈？

安裝selenium，chromedriver.exe地址：http://chromedriver.storage.googleapis.com/index.html?path=2.41/（）

我的是windows系統，文件放在python/Scripts目錄下，不用配置環境變數。本文只用Chrome爬蟲。

照教程爬了貓眼排行榜還是啥也不懂的我，接了朋友給的艱巨任務：智聯招聘（【內牛滿面】）

所學庫不多，但好歹邁出了第一步。對代碼運行結果也有困惑，希望交流~

from urllib.parse import urlencode
import requests
import json
import csv
import time


def get_one_page(page):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
    }
    params = {
        'start': '',
        'pageSize': '60',
        'cityId': '489',
        'workExperience': '-1',
        'education': '-1',
        'companyType': '-1',
        'employmentType': '-1',
        'jobWelfareTag': '-1',
        'kw': '數據分析師',
        'kt': '3',
        'lastUrlQuery': {"p": page,
                         "pageSize": "60",
                         "jl": "489",
                         "kw": "數據分析師",
                         "kt": "3"
                         }
    }
    base_url = 'https://fe-api.zhaopin.com/c/i/sou?'
    url = base_url + urlencode(params)
    # print(url)

    response = requests.get(url, headers=headers)
    try:
        if response.status_code == 200:
            return response.json()
    except Exception as e:
        print('Error:', e)


@get_one_page
def func(page):
    if page == 0:
        get_one_page().params.pop('start')
        get_one_page().params['lastUrlQuery'].pop('p')
    else:
        get_one_page().params['start'] = 60 * (page - 1)
    return get_one_page()


def parse_page(json):
    if json.get('data'):
        data = json.get('data').get('results')
        data_list = []
        for item in data:
            job_name = item.get('jobName')
            salary = item.get('salary')
            company = item.get('company').get('name')
            welfare = item.get('welfare')
            city = item.get('city').get('name')
            work = item.get('workingExp').get('name')
            edu_level = item.get('eduLevel').get('name')
            data_list.append([job_name, company, welfare, salary, city, work, edu_level])
        print(data_list)
        return data_list


def save_data(datas):
    with open('data_zhilian_findjob.csv', 'w') as csvfile:
        writer = csv.writer(csvfile)
        writer.writerow(['job_name', 'company', 'welfare,salary', 'city', 'workingExp', 'edu_level'])
        for row in datas:
            writer.writerow(row)


def main():
    for page in range(20):
        json = get_one_page(page)
        data = parse_page(json)
        # print(data)
        time.sleep(0.8)
        save_data(data)


if __name__ == '__main__':
    main()

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

關於div設置display: inline-block之後盒子之間間距的處理

當兩個盒子都設置display: inline-block之後並且css也清除了預設樣式這時候會發現div盒子之間仍然存在間隙將font-size清0間距就會取消 ...
ExtJs如何使用自定義插件動態保存表頭配置（隱藏或顯示）

關於保存列表表頭的配置，一般我們不需要與後臺交互，直接保存在 localStorage 中就能滿足常規使用需求（需要瀏覽器支持）。直接上代碼，插件：如何使用：由於這是一個比較常規的需求，因此這裡預設給所有的gridPanel配置此插件，並支持手動配置參數禁用之，考慮覆寫gridPanel類。代 ...
javascript避免dom事件重覆觸發

/** * 為指定控制項添加限制性事件, 該事件在觸發之後, 會被移除, 併在指定的時間間隔後, 重新綁定, 適用於避免控制項事件被誤操作重覆觸發的場景 * @param {String} domID 要添加事件的控制項ID * @param {String} eventName 要添加的事件, 例如: ...
vue實現雙向綁定的簡單原理: defineProperty

vue實現簡單的雙向綁定的原理 ...
牛客NOIP提高組(三)題解

心路歷程預計得分：$30 + 0 + 0 = 30$ 實際得分：$0+0+0= 0$ T1算概率的時候沒模爆long long了。。。 A 我敢打賭這不是noip難度。。。考慮算一個位置的概率，若想要$k$步把它幹掉，那麼與他距離為$1$到$k - 1$的點都必須阻塞且距離為$k$的點至少有一 ...
c/c++ 標準庫智能指針( smart pointer ) 是啥玩意兒

標準庫智能指針( smart pointer ) 是啥玩意兒一，為什麼有智能指針？？？ c++程式員需要自己善後自己動態開闢的記憶體，一旦忘了釋放，記憶體就泄露。智能指針可以幫助程式員 "自動釋放" 自己開闢的記憶體。二，從哪裡看出來智能了？？？上面的代碼把p交給智能指針auto_ptr管理後， ...
一個致命的 Redis 命令，導致公司損失 400 萬！！

最近安全事故瀕發啊，前幾天發生了《順豐高級運維工程師的刪庫事件》，今天又看到了 PHP 工程師線上執行了 Redis 危險命令導致某公司損失 400 萬。。什麼樣的 Redis 命令會有如此威力，造成如此大的損失？具體消息如下：據云頭條報道，某公司技術部發生 2 起本年度 PO 級特大事故，造 ...
序列化和反序列化的理解

序列化和反序列化：Java的對象序列化是指將那些實現了Serializable介面的對象轉換成一個位元組序列，並能夠在以後將這個位元組序列完全恢復為原來的對象。為什麼要序列化：數據持久化存儲（包括資料庫存儲、文件存儲等等），當然也可以叫流式數據傳輸。如何去實現序列化和反序列化：數據結構對象上只要實現 ...