Python爬蟲實戰：2017中國最好大學排名

-Advertisement-

抓取內容：從最好大學網上抓取中國前10的大學排名、大學名稱、總分，並數據格式左對齊。 http://www.zuihaodaxue.cn/zuihaodaxuepaiming2017.html 首先，看下網站的Robots協議，沒有找到相關協議，可以抓取。 http://www.zuihaodax ...

抓取內容：

從最好大學網上抓取中國前10的大學排名、大學名稱、總分，並數據格式左對齊。 http://www.zuihaodaxue.cn/zuihaodaxuepaiming2017.html

首先，看下網站的Robots協議，沒有找到相關協議，可以抓取。 http://www.zuihaodaxue.cn/robots.txt

接下來開始整理思路：

獲取網頁信息
填充列表數據
輸出列表數據，併進行格式化
輸出結果

完整代碼：

 1 import requests
 2 from bs4 import BeautifulSoup
 3 import bs4
 4 
 5 # 獲取網頁信息的通用框架
 6 def getHtmlText(url):
 7     try:
 8         r = requests.get(url, timeout = 30)
 9         r.raise_for_status()
10         r.encoding = r.apparent_encoding
11         return r.text
12     except:
13         return '爬取失敗'
14 
15 # 填充列表
16 def fillUnivList(ulist, html):
17     soup = BeautifulSoup(html, 'lxml')
18     for tr in soup.find('tbody').children:
19         # 檢查網頁代碼可以發現數據都儲存在tboyd標簽中，這裡需要對tbody的兒子節點進行遍歷
20         if isinstance(tr, bs4.element.Tag):
21             # 檢測標簽類型，如果不是bs4庫支持的Tag類型，就過濾掉，這裡需要先導入bs4庫
22             tds = tr('td')
23             # 解析出tr標簽中的td標簽後，將其儲存在列表tds中
24             ulist.append([tds[0].string, tds[1].string, tds[3].string])
25             # 我們需要的是排名、學校名稱和總分
26 
27 # 格式化後，輸出列表數據
28 def printUnivList(ulist, num):
29     tplt = '{:<10}\t{:<10}\t{:<10}'
30     # 定義輸出模板為變數tplt，\t為橫向製表符，<為左對齊，10為每列的寬度
31     print(tplt.format('排名','學校名稱','總分'))
32     # format()方法做格式化輸出
33     for i in range(num):
34         u = ulist[i]
35         print(tplt.format(u[0],u[1],u[2]))
36 
37 def main():
38     uinfo = []
39     url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2017.html'
40     html = getHtmlText(url)
41     fillUnivList(uinfo, html)
42     printUnivList(uinfo, 10)
43     # 選取前10所學校信息
44 main()

運行結果：

操作環境：Mac，Python 3.6，PyCharm 2016.2

參考資料：中國大學MOOC課程《Python網路爬蟲與信息提取》

----- End -----

更多精彩內容關註我公眾號：杜王丹

作者：杜王丹，互聯網產品經理

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

P1341 無序字母對

題目描述給定n個各不相同的無序字母對（區分大小寫，無序即字母對中的兩個字母可以位置顛倒）。請構造一個有n+1個字母的字元串使得每個字母對都在這個字元串中出現。輸入輸出格式輸入格式：第一行輸入一個正整數n。以下n行每行兩個字母，表示這兩個字母需要相鄰。輸出格式：輸出滿足要求的字元串。如 ...
從程式員到CTO的Java技術路線圖

在技術方面無論我們怎麼學習，總感覺需要提升自已不知道自己處於什麼水平了。但如果有清晰的指示圖供參考還是非常不錯的，這樣我們清楚的知道我們大概處於那個階段和水平。 Java程式員高級特性反射、泛型、註釋符、自動裝箱和拆箱、枚舉類、可變參數、可變返回類型、增強迴圈、靜態導入核心編程 IO、多線程 ...
ext radiogroup如何取值和設值

1 var radios = Ext.create('Ext.form.Panel', { 2 title: 'RadioGroup Example', 3 width: 300, 4 height: 125, 5 bodyPadding: 10, 6 renderTo: Ext.getBody()... ...
簡單爬蟲爬去51job職位

1 #-*- coding:utf-8 -*- 2 from urllib import request 3 from bs4 import BeautifulSoup 4 from urllib import parse 5 import pymysql 6 url = "http://searc ...
P1168 中位數

題目描述給出一個長度為N的非負整數序列A[i]，對於所有1 ≤ k ≤ (N + 1) / 2，輸出A[1], A[3], …, A[2k - 1]的中位數。[color=red]即[/color]前1，3，5，……個數的中位數。輸入輸出格式輸入格式：輸入文件median.in的第1行為一個 ...
Beautifulsoup

一、獲取Tag 1.find_all方法（1）find_all(name='tag_name',attrs,recursive,text,**kwargs) name：tag對應的名稱,當包括多個tag時，返回的是一個列表，可以利用列表功能選取對應的tag。 href：tag的屬性，常用屬性cla ...
beautifulsoup部分知識點

1 html_doc = "" 2 sp = BeautifulSoup(html_doc,"html.parser") 3 print(sp.p['class']) 4 #['body','strikeout'] 5 print(sp.p['id']) 6 #zhangsan 7 8 html_d... ...
基於 Spring + Dubbo 開發分散式REST服務實戰

課程中詳細演示了一個應用從單塊架構到垂直應用架構再到分散式服務架構的演進過程。講解瞭如何在前後端分離的架構下設計RESTful API。最終的系統對外提供REST風格的http服務，內部各個垂直應用通過dubbo共用無狀態的Java服務。整個系統在Web層和服務層都可以無縫的橫向擴展。 ...