我是一隻放養的小爬蟲--拉鉤網半智能整站小爬蟲

-Advertisement-

我是一隻放養的小爬蟲拉鉤網半智能整站小爬蟲 === 筆者聲明：只用於學習交流,不用於其他途徑。源代碼已上傳github。githu地址： "https://github.com/Erma Wang/Spider" Python寫爬蟲的感覺那叫一個爽！100行代碼不到，爬取整站，貌似這樣下去拉鉤還不

我是一隻放養的小爬蟲--拉鉤網半智能整站小爬蟲

筆者聲明：只用於學習交流,不用於其他途徑。源代碼已上傳github。githu地址：https://github.com/Erma-Wang/Spider

Python寫爬蟲的感覺那叫一個爽！100行代碼不到，爬取整站，貌似這樣下去拉鉤還不加強伺服器麽？下麵看看半智能的效果，程式員嘛。。。不做外殼了。。。我只是一隻放養的小爬蟲，拉鉤看到就說對不起啰！！。哈哈，下麵看圖：

輸入命令後，小爬蟲開始工作了！

爬去結束後小爬蟲自動生成了一個XLS文件，一般的excel就能打開了

最後看看成果：

好了，效果看完了，看看小爬蟲怎麼製造出來的吧。。。
其中也沒有什麼難點的技術，不過pandas很值得學習，給個學習鏈接http://pandas.pydata.org，挺不錯的。。下麵貼一下代碼吧。。。github上面也有。

# -*- coding:utf-8 -*-

import re,json
from urllib import request
from pandas import DataFrame,Series
import pandas as pd

__author__ = "放養的小爬蟲"

# 處理字元串的函數
def ProcessingString(string):
string = string.encode('utf-8')
string = str(string).replace(r'\x','%').replace(r"'","")
string = re.sub('^b','',string)
return string

# 計算總共頁數
def SearchPageCount(position, city):
i = 0
type = 'true'
url = 'http://www.lagou.com/jobs/positionAjax.json?city='+city+'&first='+type+'&kd='+position+'&pn='+str(i+1)
with request.urlopen(url) as f:
    data = f.read()
    count = int(json.loads(str(data,encoding='utf-8',errors='ignore'))["content"]["totalPageCount"])
    totalCount = int(json.loads(str(data,encoding='utf-8',errors='ignore'))["content"]["totalCount"])
    print('本次搜索到%d個職位'%totalCount)
return count

def LaGouSpiderWithKeyWord(position, city):
positionTemp = ProcessingString(position)
cityTemp = ProcessingString(city)
# 獲取總共頁數
pageCount = SearchPageCount(positionTemp,cityTemp)

for i in range(0,pageCount):
    if i ==0 :
        type='true'
    else:
        type='false'
    url = 'http://www.lagou.com/jobs/positionAjax.json?city='+cityTemp+'&first='+type+'&kd='+positionTemp+'&pn=1'
    data = request.urlopen(url).read()
#     讀取Json數據
    jsondata = json.loads(str(data,encoding='utf-8',errors='ignore'))['content']['result']
    for t in list(range(len(jsondata))):
        jsondata[t]['companyLabelListTotal']='-'.join(jsondata[t]['companyLabelList'])
        jsondata[t].pop('companyLabelList')
        if t == 0:
            rdata=DataFrame(Series(data=jsondata[t])).T
        else:
            rdata=pd.concat([rdata,DataFrame(Series(data=jsondata[t])).T])
    if i == 0:
        totaldata=rdata
    else:
        totaldata=pd.concat([totaldata,rdata])
    print('正在解析第%d頁...'%i)
totaldata.to_excel('lagou.xls',sheet_name='sheet1')

if __name__ == "__main__":
position = input('請輸入你要爬取的職位')
city = input('請輸入你要爬取的城市')
LaGouSpiderWithKeyWord(position, city)

作者聲明：只做學習交流，不用於其他途徑！！！

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

python學習筆記之類class（第六天）

參考文檔： 1、金角大王博客：http://www.cnblogs.com/alex3714/articles/5188179.html 2、銀角大王博客：http://www.cnblogs.com/wupeiqi/articles
Java中JButton常用設置

1、對JButton大小的設置 button.setPreferredSize(new Dimension(30,30)); //（30，30）是你要設置按鈕的大小 2、對JButton透明的設置 button.setContentAreaFilled(fa
Java學習（十一）、面向對象編程（三）封裝--包

打包的意義： ① 標準Java庫是由一系列包組成，包括java.lang，java.util，java.net等。標準Java包就是層次型包結構，就如同硬碟上嵌套的子目錄一樣，我們可以使用嵌套層次結構來組成包; ② Java的包是為了更好地規劃代碼，防止命名衝突和混亂。所以Java出現了打包
TXT四則運算計算器

基本思想:使用getline函數從TXT文件中依次讀出中綴表達式,將其轉為尾碼表達式後計算結果,並與用戶結果比對。整數、分數、小數的處理:將小數和整數都視為預設分母為1的分數.建立分數類,在中綴轉換成尾碼時將整數和小數轉換為分數. 關於求最大公約數所使用的輾轉相除法在上一篇博文中已經寫過。為了之後
java程式練習：猜字母

猜字母程式=數據結構+演算法首先：定義數據結構1.找名詞Input:輸入變數Output:輸出變數隱含：找到隱含的變數，如字元串其次：定義演算法，程式的處理最後：按照順序，逐步實現註意：1.基本數據類型作為參數傳遞時，會複製一份新的變數，所以方法內的參數不會影響到方法外的變數2.數組作為參數傳遞
Java學習（十）、面向對象編程（二）封裝

面向對象三大特點：封裝、繼承、多態封裝概念 ① 將東西包裝在一起，然後以新的完整形式呈現出來：將方法和欄位一起包裝到一個單元中，單元以類的形式實現; ② 信息隱藏，隱藏對象的實現細節，不讓外部直接訪問到; ③ 將數據和方法包裝進類中，加上具體實現的隱藏，共同被稱作封裝，其結果是一個同
PHPUnit 入門案例

在用PHPUnit做單元測試時，我們可以借鑒先寫測試和測試驅動編碼的思想，將代碼編寫的更加模塊化，減少耦合，並且以完成實際功能為目標。這樣的代碼將會有更高的可測性，會大大提高我們的測試效率。
泛型中? super T和? extends T的區別

經常發現有List<? super T>、Set<? extends T>的聲明，是什麼意思呢？<? super T>表示包括T在內的任何T的父類，<? extends T>表示包括T在內的任何T的子類，下麵我們詳細分析一下兩種通配符具體的區別。 extends List<? exten