簡單爬蟲爬去51job職位_ZenDei技術網路在線

簡單爬蟲爬去51job職位

-Advertisement-

1 #-*- coding:utf-8 -*- 2 from urllib import request 3 from bs4 import BeautifulSoup 4 from urllib import parse 5 import pymysql 6 url = "http://searc ...

 1 #-*- coding:utf-8 -*-
 2 from urllib import request
 3 from bs4 import BeautifulSoup
 4 from urllib import parse
 5 import pymysql
 6 url = "http://search.51job.com/jobsearch/search_result.php"
 7 rep = request.Request(url)
 8 rep.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36")
 9 rep.add_header("Origin","http://search.51job.com")
10 postData = parse.urlencode([
11     ("fromJs", "1"),
12     ("jobarea", "040000"),
13     ("keyword", "python"),
14     ("keywordtype", "2"),
15     ("lang", "c"),
16     ("stype", "2"),
17     ("postchannel", "0000"),
18     ("fromType", "1"),
19     ("confirmdate", "9")
20 ])
21 print(postData)
22 return_ = request.urlopen(rep,data=postData.encode("gbk"))
23 content = return_.read().decode("gb18030")
24 sp = BeautifulSoup(content,"html.parser")
25 f = open("b.txt",'w')
26 
27 info_set = set([])
28 j = 0
29 for i in sp.find("div",class_="dw_table").find_all("div",class_="el"):
30   if j==0:
31       j = j + 1
32       continue;
33   j = j + 1
34   content = i.find("a").get_text().strip()+"*"+i.find("span",class_="t2").string+"*"+i.find("span",class_="t3").string+"*"+i.find("span",class_="t4").string+"*"+i.find("span",class_="t5").string+"\n"
35   f.write(str(content))
36 print("下載完成")
37 print(info_set)
38 f.close()
39 #分頁有困難

View Code

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

P1375 嵌套矩形

題目Problem 嵌套矩形 Time Limit: 1000ms Memory Limit: 131072KB 題目Problem 嵌套矩形 Time Limit: 1000ms Memory Limit: 131072KB 嵌套矩形 Time Limit: 1000ms Memory Limit ...
【Spring】19、spring配置數據源的4種方式

不管採用何種持久化技術，都需要定義數據源。Spring中提供了4種不同形式的數據源配置方式： spring自帶的數據源(DriverManagerDataSource)，DBCP數據源，C3P0數據源,JNDI數據源。 1.spring自帶的數據源 DriverManagerDataSource X ...
專業定製開發一元奪寶(一元購)網站系統建設，帶源碼

10年專業團隊，開發定製一元奪寶網站系統建設開發，代碼，支持PC端+WAP端+APP端+分銷功能+多種支付方式+秒殺<ignore_js_op> <ignore_js_op> <ignore_js_op> <ignore_js_op> <ignore_js_op> 系統環境<ignore_js_op ...
開始JAVA編程的敲門磚——JAVA開發環境搭建

從頭開始的java編程——JAVA開發環境搭建一、什麼是java的開發環境？顧名思義java的開發環境是提供並保證整個java程式開發運行的必要的環境，搭建java開發環境是開始java編程的敲門磚，正所謂巧婦難為無米之炊，你編寫再炫酷的代碼，沒有相應的開發環境也是一堆意義不明的符號亂碼。編譯 ...
P2241 統計方形（數據加強版）

題目背景 1997年普及組第一題題目描述有一個n*m方格的棋盤，求其方格包含多少正方形、長方形輸入輸出格式輸入格式： n,m因為原來數據太弱，現規定m小於等於5000，n小於等於5000（原來是100,100）輸出格式：方格包含多少正方形、長方形輸入輸出樣例輸入樣例#1： 2 3 輸 ...
P1341 無序字母對

題目描述給定n個各不相同的無序字母對（區分大小寫，無序即字母對中的兩個字母可以位置顛倒）。請構造一個有n+1個字母的字元串使得每個字母對都在這個字元串中出現。輸入輸出格式輸入格式：第一行輸入一個正整數n。以下n行每行兩個字母，表示這兩個字母需要相鄰。輸出格式：輸出滿足要求的字元串。如 ...
從程式員到CTO的Java技術路線圖

在技術方面無論我們怎麼學習，總感覺需要提升自已不知道自己處於什麼水平了。但如果有清晰的指示圖供參考還是非常不錯的，這樣我們清楚的知道我們大概處於那個階段和水平。 Java程式員高級特性反射、泛型、註釋符、自動裝箱和拆箱、枚舉類、可變參數、可變返回類型、增強迴圈、靜態導入核心編程 IO、多線程 ...
ext radiogroup如何取值和設值

1 var radios = Ext.create('Ext.form.Panel', { 2 title: 'RadioGroup Example', 3 width: 300, 4 height: 125, 5 bodyPadding: 10, 6 renderTo: Ext.getBody()... ...