我是一隻放養的小爬蟲--拉鉤網半智能整站小爬蟲

来源:http://www.cnblogs.com/Erma-king/archive/2016/03/13/5272929.html
-Advertisement-
Play Games

我是一隻放養的小爬蟲 拉鉤網半智能整站小爬蟲 === 筆者聲明:只用於學習交流,不用於其他途徑。源代碼已上傳github。githu地址: "https://github.com/Erma Wang/Spider" Python寫爬蟲的感覺那叫一個爽!100行代碼不到,爬取整站,貌似這樣下去拉鉤還不


我是一隻放養的小爬蟲--拉鉤網半智能整站小爬蟲

筆者聲明:只用於學習交流,不用於其他途徑。源代碼已上傳github。githu地址:https://github.com/Erma-Wang/Spider

Python寫爬蟲的感覺那叫一個爽!100行代碼不到,爬取整站,貌似這樣下去拉鉤還不加強伺服器麽?下麵看看半智能的效果,程式員嘛。。。不做外殼了。。。我只是一隻放養的小爬蟲,拉鉤看到就說對不起啰!!。哈哈,下麵看圖:
1

輸入命令後,小爬蟲開始工作了!
1

爬去結束後小爬蟲自動生成了一個XLS文件,一般的excel就能打開了
1
最後看看成果:
1

好了,效果看完了,看看小爬蟲怎麼製造出來的吧。。。
其中也沒有什麼難點的技術,不過pandas很值得學習,給個學習鏈接http://pandas.pydata.org,挺不錯的。。下麵貼一下代碼吧。。。github上面也有。

# -*- coding:utf-8 -*-

import re,json
from urllib import request
from pandas import DataFrame,Series
import pandas as pd

__author__ = "放養的小爬蟲"

# 處理字元串的函數
def ProcessingString(string):
string = string.encode('utf-8')
string = str(string).replace(r'\x','%').replace(r"'","")
string = re.sub('^b','',string)
return string

# 計算總共頁數
def SearchPageCount(position, city):
i = 0
type = 'true'
url = 'http://www.lagou.com/jobs/positionAjax.json?city='+city+'&first='+type+'&kd='+position+'&pn='+str(i+1)
with request.urlopen(url) as f:
    data = f.read()
    count = int(json.loads(str(data,encoding='utf-8',errors='ignore'))["content"]["totalPageCount"])
    totalCount = int(json.loads(str(data,encoding='utf-8',errors='ignore'))["content"]["totalCount"])
    print('本次搜索到%d個職位'%totalCount)
return count

def LaGouSpiderWithKeyWord(position, city):
positionTemp = ProcessingString(position)
cityTemp = ProcessingString(city)
# 獲取總共頁數
pageCount = SearchPageCount(positionTemp,cityTemp)

for i in range(0,pageCount):
    if i ==0 :
        type='true'
    else:
        type='false'
    url = 'http://www.lagou.com/jobs/positionAjax.json?city='+cityTemp+'&first='+type+'&kd='+positionTemp+'&pn=1'
    data = request.urlopen(url).read()
#     讀取Json數據
    jsondata = json.loads(str(data,encoding='utf-8',errors='ignore'))['content']['result']
    for t in list(range(len(jsondata))):
        jsondata[t]['companyLabelListTotal']='-'.join(jsondata[t]['companyLabelList'])
        jsondata[t].pop('companyLabelList')
        if t == 0:
            rdata=DataFrame(Series(data=jsondata[t])).T
        else:
            rdata=pd.concat([rdata,DataFrame(Series(data=jsondata[t])).T])
    if i == 0:
        totaldata=rdata
    else:
        totaldata=pd.concat([totaldata,rdata])
    print('正在解析第%d頁...'%i)
totaldata.to_excel('lagou.xls',sheet_name='sheet1')

if __name__ == "__main__":
position = input('請輸入你要爬取的職位')
city = input('請輸入你要爬取的城市')
LaGouSpiderWithKeyWord(position, city)

作者聲明:只做學習交流,不用於其他途徑!!!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  •        參考文檔:              1、金角大王博客:http://www.cnblogs.com/alex3714/articles/5188179.html              2、銀角大王博客:http://www.cnblogs.com/wupeiqi/articles
  • 1、 對JButton大小的設置        button.setPreferredSize(new Dimension(30,30));      //(30,30) 是你要設置按鈕的大小 2、 對JButton透明的設置       button.setContentAreaFilled(fa
  • 打包的意義: ①   標準Java庫是由一系列包組成,包括java.lang,java.util,java.net等。標準Java包就是層次型包結構,就如同硬碟上嵌套的子目錄一樣,我們可以使用嵌套層次結構來組成包; ②   Java的包是為了更好地規劃代碼,防止命名衝突和混亂。所以Java出現了打包
  • 基本思想:使用getline函數從TXT文件中依次讀出中綴表達式,將其轉為尾碼表達式後計算結果,並與用戶結果比對。 整數、分數、小數的處理:將小數和整數都視為預設分母為1的分數.建立分數類,在中綴轉換成尾碼時將整數和小數轉換為分數. 關於求最大公約數所使用的輾轉相除法在上一篇博文中已經寫過。為了之後
  • 猜字母程式=數據結構+演算法 首先:定義數據結構1.找名詞Input:輸入變數Output:輸出變數隱含:找到隱含的變數,如字元串 其次:定義演算法,程式的處理 最後:按照順序,逐步實現 註意:1.基本數據類型作為參數傳遞時,會複製一份新的變數,所以方法內的參數不會影響到方法外的變數2.數組作為參數傳遞
  • 面向對象三大特點:封裝、繼承、多態 封裝概念 ①   將東西包裝在一起,然後以新的完整形式呈現出來: 將方法和欄位一起包裝到一個單元中,單元以類的形式實現; ②   信息隱藏,隱藏對象的實現細節,不讓外部直接訪問到; ③   將數據和方法包裝進類中,加上具體實現的隱藏,共同被稱作封裝,其結果是一個同
  • 在用PHPUnit做單元測試時,我們可以借鑒先寫測試和測試驅動編碼的思想,將代碼編寫的更加模塊化,減少耦合,並且以完成實際功能為目標。這樣的代碼將會有更高的可測性,會大大提高我們的測試效率。
  • 經常發現有List<? super T>、Set<? extends T>的聲明,是什麼意思 呢?<? super T>表示包括T在內的任何T的父類,<? extends T>表示包括T在內的任何T的子類,下麵我們 詳細分析一下兩種通配符具體的區別。     extends List<? exten
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...