小爬拉勾網職位

来源:http://www.cnblogs.com/jasonhaven/archive/2017/08/24/7421044.html
-Advertisement-
Play Games

問題描述:爬取拉勾網python、工作地在北京的相關職業(python,北京),將結果保存。 1.頁面分析: 因為拉勾網有反爬蟲機制,所以需要設置相應的請求信息,由於職位信息AJAX非同步響應在頁面,所以直接訪問非同步請求。 查看響應: 2.代碼: 3.運行結果: 將結果以json格式保存到文件中: 格 ...


問題描述:爬取拉勾網python、工作地在北京的相關職業(python,北京),將結果保存。

1.頁面分析:

因為拉勾網有反爬蟲機制,所以需要設置相應的請求信息,由於職位信息AJAX非同步響應在頁面,所以直接訪問非同步請求。

查看響應:

2.代碼: 

#!/usr/bin/env/python
# coding:utf-8
import sys
import requests
import json
from bs4 import BeautifulSoup as bs


def main():
   # 拉勾網有反爬蟲機制
   # url='https://www.lagou.com/jobs/list_python?px=default&city=%E5%8C%97%E4%BA%AC#filterBox'

   # AJAX請求
   url = 'https://www.lagou.com/jobs/positionAjax.json?px=default&city=%E5%8C%97%E4%BA%AC&needAddtionalResult=false&isSchoolJob=0'

   # 請求頭信息
   headers = {
      'Cookie': 'SESSIONID=ABAAABAAAIAACBI386BBF2A4AF17A015A35A443275F849E; user_trace_token=20170823222931-7a66d0be-880f-11e7-8e7c-5254005c3644; LGUID=20170823222931-7a66d82d-880f-11e7-8e7c-5254005c3644; X_HTTP_TOKEN=efbd926a2120df44637a9a572dfe0f6e; _putrc=8582F8EBD102AF67; login=true; unick=%E6%8B%89%E5%8B%BE%E7%94%A8%E6%88%B71976; showExpriedIndex=1; showExpriedCompanyHome=1; showExpriedMyPublish=1; hasDeliver=0; TG-TRACK-CODE=search_code; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1503498572; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1503502613; _ga=GA1.2.1002397109.1503498572; _gid=GA1.2.1028357858.1503498572; PRE_UTM=; PRE_HOST=; PRE_SITE=https%3A%2F%2Fwww.lagou.com%2Fjobs%2Flist_python%3Fpx%3Ddefault%26xl%3D%25E6%259C%25AC%25E7%25A7%2591%26city%3D%25E5%258C%2597%25E4%25BA%25AC; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2Fjobs%2Flist_python%3Fpx%3Ddefault%26city%3D%25E5%258C%2597%25E4%25BA%25AC; LGSID=20170823233652-e3035a6a-8818-11e7-9fe3-525400f775ce; LGRID=20170823233656-e535491c-8818-11e7-9fe3-525400f775ce; SEARCH_ID=cc7603ed348d42898fdaec6b2dcb5e23; index_location_city=%E5%85%A8%E5%9B%BD',
      'Host': 'www.lagou.com',
      'Origin': 'https://www.lagou.com',
      'Referer': 'https://www.lagou.com/jobs/list_python?px=default&city=%E5%8C%97%E4%BA%AC',
      'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36',
      'X-Anit-Forge-Code': '0',
      'X-Anit-Forge-Token': None,
      'X-Requested-With': 'XMLHttpRequest'
   }

   for pn in range(1, 31):
      # post參數
      post_form = {
         'kd': 'python'
      }
      post_form['first'] = 'false'
      post_form['pn'] = str(pn)
      if pn == 1:
         post_form['first'] = 'true'

      # 獲取頁面
      result = requests.post(url, headers=headers, data=post_form)
      if result.status_code != 200:
         print('requet failed!')
         sys.exit()
      # print(result.content.decode('utf-8'))
      file = 'position/positions_page' + str(pn) + '.json'
      try:
         result_json = result.json()
         # print(type(result_json))
         positions = result_json['content']['positionResult']['result']
         line = json.dumps(positions, ensure_ascii=False)
         with open(file, 'w', encoding='utf8') as file:
            file.write(line)
            print('save ',file ,' successfully!')
      except Exception as e:
         print('save ', file, ' failed!')

if __name__ == '__main__':
   main()

  

3.運行結果:

將結果以json格式保存到文件中:

格式化顯示:


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1.根據已完成的Hibernate1基礎案例,我們接下來寫一下查詢,修改刪除,對於基礎生可以學習一下 只改寫一下測試類的代碼 1 private void findStudent() { 2 //02Hibernate 保存 3 //讀取大配置文件,獲取連接的資料庫信息 4 Configuratio ...
  • 我學習go的五個感悟(譯) 原文 "5 things about programming I learned with Go By MICHAŁ KONARSKI" Go在最近一段時間內開始變得十分流行。語言相關的論文和博客每天都在更新,新的golang相關的項目在github中也層出不窮。Go語言 ...
  • 題目鏈接 Problem Description Giving two strings and you should judge if they are matched.The first string contains lowercase letters and uppercase letters ...
  • akka-stream的Graph是一種運算方案,它可能代表某種簡單的線性數據流圖如:Source/Flow/Sink,也可能是由更基礎的流圖組合而成相對複雜點的某種複合流圖,而這個複合流圖本身又可以被當作組件來組合更大的Graph。因為Graph只是對數據流運算的描述,所以它是可以被重覆利用的。所 ...
  • Group(), Groups() & Groupdict() in re module of Python ...
  • HttpServletRequest: 表示瀏覽器向伺服器發送的請求報文,由Tomcat創建然後作為參數傳遞給我們doget,dopost方法。 功能:getParameter()獲取請求參數 getContextPath()獲取當前項目名 request..getRequestDispatcher ...
  • socketserver分類: 1、TCP協議 class socketserver.TCPServer(server_address,RequestHandlerClass,bind_and_activate=True) 2、UDP協議 class socketserver.UDPServer(s ...
  • TensorFlow目錄結構。 ACKNOWLEDGMENTS #TensorFlow版本聲明 ADOPTERS.md #使用TensorFlow的人員或組織列表 AUTHORS #TensorFlow作者的官方列表 BUILD CONTRIBUTING.md #TensorFlow貢獻指導 ISS ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...