關於最好大學排名的爬蟲

来源:https://www.cnblogs.com/billged/archive/2017/12/30/8151209.html
-Advertisement-
Play Games

概述 既然決定把視頻上老師講的實戰都自己動手實現一遍,那麼就先把最好大學排名這個實例自己寫一遍。看視頻的時候挺輕鬆的,但是到自己動手的時候才知道不容易,寫這個程式遇到兩個比較棘手的問題,一個是如何從網頁中提取出自己想要的信息,另一個是信息以什麼樣的形式保存並展示出來。其實幾乎所有的爬蟲都會遇到這兩個 ...


概述

既然決定把視頻上老師講的實戰都自己動手實現一遍,那麼就先把最好大學排名這個實例自己寫一遍。看視頻的時候挺輕鬆的,但是到自己動手的時候才知道不容易,寫這個程式遇到兩個比較棘手的問題,一個是如何從網頁中提取出自己想要的信息,另一個是信息以什麼樣的形式保存並展示出來。其實幾乎所有的爬蟲都會遇到這兩個問題吧,希望在以後的練習中能不斷增強對這兩個問題的處理能力。當然,這個實例還有一個重要的作用是增強自己對beautifulsoup庫的理解和運用。

準備工作

打開Chrome瀏覽器,查看要爬取的頁面是否為靜態頁面,如果不是的話以目前的技術是不能對其進行爬取的,畢竟視頻的錄製已經有一段時間了,網頁可能會有所變化。經檢查,幸好網頁還是靜態的,就可以用requests+bs4對其進行爬取。

調試

不能掄起袖子,就在sublime中猛寫代碼,邊寫邊改,其實效率是很低的,因為如果在編輯器中寫代碼調試,發現自己的代碼不能抓取到目標信息,就必須修改代碼並且重新對網頁進行爬取操作,無疑這種人工的重覆勞動是不行的,效率十分低下,畢竟只是個小白,不能一下子就把正確的信息抓取下來。
針對此問題,可以在Python shell中進行調試,這樣就好了許多。在互動式視窗中引入requests和bs4,在shell中進行調試明顯比在命令行中調試好了許多。
調試過程中儘量用瀏覽器的開發者工具對信息進行分析吧,如果用源代碼對其進行分析的話,結構不清晰,不容易分析。

bd4的使用

根據個人的習慣,發現自己最常用的方法應該是find_all()、對子節點的訪問和平行節點向下遍歷了,有時還會遇到對標簽的屬性信息和文本信息的提取。

find_all()

標簽對象的一個方法,主要是用來定位一個標簽或者是一些標簽的位置,返回的是一個列表,列表裡的每個元素是一個tag對象。此方法常和標簽的屬性組合來完成定位,要註意的是,class屬性由於和Python中的關鍵字衝突,所以用class_代替,由於此方法很常用,所以可以不寫,直接加對括弧就可以表示調用了此方法了,十分方便。

子節點遍歷
  • "." 操作符 得到子節點中第一個符合的標簽
  • .contents 返回一個含所有子節點的列表
  • .children 返回一個可迭代對象,內容和.contents是一樣的
tbody.tr.td
<td>1</td>

值得註意的是,空字元串或者是換行符也算是節點,這是一個大坑,要註意一點。

平行節點的向下遍歷
  • .next_sibling 返回一個標簽對象
  • .next_siblings 返回一個可迭代對象
對標簽屬性的訪問
  • 類似於字典式的訪問
  • get()
 tbody['class']
['hidden_zhpm']
tbody.get('class')
['hidden_zhpm']

也許用第二種意思更清晰點吧==

對標簽中文本信息的提取
  • .string
  • .text
  • .get_text()
td.string
'1'
td.text
'1'
td.get_text()
'1'

遇到的問題

  1. 每所學校的標簽基本上一樣的,有些有屬性還能精准定位,而有些沒有屬性,不能精準的定位,而且還有些空格或者是換行符還混進來,增加了提取信息的難度。
  2. 每所學校要獲取的信息有三個:排名、學校名稱和所在地區,應該以哪種方式對它們進行保存也是個問題。
  3. 把獲取到的信息格式化輸出也是個問題,因為要做到簡潔、清晰和美觀。
  • 對於第一個問題,既然有些標簽沒有屬性,不能精確定位,又不能將其放棄,那麼只能不用配合屬性將它們都抓取下來,其中混雜著換行符這個垃圾信息,可以增加一個判斷語句來將換行符給排除掉:
    if isinstance(tr, bs4.element.Tag)
  • 第二個問題,用列表的形式將這三個信息保存下來,而這三個元素是列表的一個元素,也就是嵌套列表,列表可以從主函數這邊傳遞過去。
  • 第三個問題,格式化輸出可以用字元串的format函數,但是還是遇到了問題,主要是大學名稱太長會把後面的省市的一部分空間給占用掉,造成不對齊現象。測試了很多次,在設置的長度足夠長的情況下,只要中文字數超過7個,必將不對齊,很神奇的現象,跑去論壇問,也沒有誰說出個所以然來,很無奈。format函數在一般情況下不會出現問題,先這樣吧。

總結

對於這個爬蟲程式的編寫,最大的收穫就是幫助我理解和掌握beautifulsoup的用法,當然還有其他方面的收穫,比如怎樣將信息格式化輸出和學習老師編寫代碼的方法,雖然最後格式化輸出有點不理想,但整個程式在整體上還是成功的,希望自己繼續努力。

源代碼

from fake_useragent import UserAgent
import requests
from requests import Timeout, HTTPError
from bs4 import BeautifulSoup
import bs4


def get_page(url, ua):      
    try:
        headers = {'User-Agent':ua}
        response = requests.get(url, headers=headers, timeout=10)
        response.raise_for_status()
        response.encoding = 'utf-8'
        return response.text
    except Timeout:
        print('requests timeout')
        get_page(url)
    except HTTPError:
        print('the http error(maybe status is not 200)')
    except:
        print('other error')

def parse_page(html):
    soup = BeautifulSoup(html, 'html.parser')
    return soup 

def get_message(html, ulist):
    tbody = html.find('tbody', class_='hidden_zhpm')
    trs = tbody('tr')
    for tr in trs:
        if isinstance(tr, bs4.element.Tag):
            tds = tr.contents
            ulist.append([tds[2].string.strip(),tds[4].string.strip(), tds[0].string.strip()])

def print_message(messages):
    templet = '{0:<50}\t{1:<50}\t{2:<50}'
    print(templet.format('排名', '學校名稱', '省市'))
    for ult in messages:
        print(templet.format(ult[2], ult[0], ult[1], ' '))

        
def main():
    ua = UserAgent()
    ua = ua.random
    url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2016.html'
    html = get_page(url, ua)
    soup = parse_page(html)
    ulist = []
    get_message(soup, ulist)
    print_message(ulist)

main()

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 偶然看見這樣一個案例,先上代碼: public class GenericAdd{ //泛型方法實現兩個數相加 public <T extends Number> double add(T t1, T t2){ double sum = 0.0; sum = t1.doubleValue() + t ...
  • MarkDown筆記 目的 寫這篇文章,一來是記錄一下,以備日後使用;二來是我看到網上很多關於MarkDown的語法總結得不是很全面。 語法 1.標題 標題有兩種表示方式,第一種是Atx,這是我見的最多的;第二種是Setext。下麵分別來介紹一下。 (1)Atx 使用 表示,和HTML的h1~h6標 ...
  • 讓我們先來預覽一下代碼運行效果吧: 首先分析163郵箱登陸頁面的網頁結構(按F12或單擊滑鼠右鍵選擇審查元素) 1、定位到登陸框(註意登錄框是一個iframe,如果不定位到iframe的話是無法找到之後的郵箱地址框和密碼輸入框的) 2、定位到郵箱地址框(name='email') 3、定位到密碼輸入 ...
  • C 語言的 static 關鍵字有三種(具體來說是兩種)用途: 1. 靜態局部變數:用於函數體內部修飾變數,這種變數的生存期長於該函數。 要明白這個用法,我們首先要瞭解c/c++的記憶體分佈,以及static所在的區間。 對於一個完整的程式,在記憶體中的分佈情況如下圖: 1.棧區: 由編譯器自動分配釋放 ...
  • 1排版 1 1相對獨立的程式塊之間、變數說明之後必須加空行。 示例:如下例子不符合規範。 if (!valid_ni(ni)) { ... // program code } repssn_ind = ssn_data[index].repssn_index; repssn_ni = ssn_dat ...
  • 本文主要介紹Spring中, 1 Bean 的 init-method 和 destroy-method 2 集合類型的裝配 3 註解方式裝配 4 以自動掃描把組件納入spring容器中管理 5 代理模式 一、Bean 的 init-method 和 destroy-method 以前在學Servl ...
  • 1.JDK API中RandomAccessFile類的描述 此類的實例支持對隨機訪問文件的讀取和寫入。隨機訪問文件的行為類似存儲在文件系統中的一個大型 byte 數組。存在指向該隱含數組的游標或索引,稱為文件指針;輸入操作從文件指針開始讀取位元組,並隨著對位元組的讀取而前移此文件指針。如果隨機訪問文件 ...
  • 字元流按字元個數輸入、輸出數據。 1.Reader類和FileReader類 Reader類是字元輸入流的超類,FileReader類是讀取字元的便捷類,此處的便捷是相對於其父類(另一個字元輸入流)InputStreamReader而言的。 read()每單字元讀取: read(char[] c)讀 ...
一周排行
    -Advertisement-
    Play Games
  • 前言 本文介紹一款使用 C# 與 WPF 開發的音頻播放器,其界面簡潔大方,操作體驗流暢。該播放器支持多種音頻格式(如 MP4、WMA、OGG、FLAC 等),並具備標記、實時歌詞顯示等功能。 另外,還支持換膚及多語言(中英文)切換。核心音頻處理採用 FFmpeg 組件,獲得了廣泛認可,目前 Git ...
  • OAuth2.0授權驗證-gitee授權碼模式 本文主要介紹如何筆者自己是如何使用gitee提供的OAuth2.0協議完成授權驗證並登錄到自己的系統,完整模式如圖 1、創建應用 打開gitee個人中心->第三方應用->創建應用 創建應用後在我的應用界面,查看已創建應用的Client ID和Clien ...
  • 解決了這個問題:《winForm下,fastReport.net 從.net framework 升級到.net5遇到的錯誤“Operation is not supported on this platform.”》 本文內容轉載自:https://www.fcnsoft.com/Home/Sho ...
  • 國內文章 WPF 從裸 Win 32 的 WM_Pointer 消息獲取觸摸點繪製筆跡 https://www.cnblogs.com/lindexi/p/18390983 本文將告訴大家如何在 WPF 裡面,接收裸 Win 32 的 WM_Pointer 消息,從消息裡面獲取觸摸點信息,使用觸摸點 ...
  • 前言 給大家推薦一個專為新零售快消行業打造了一套高效的進銷存管理系統。 系統不僅具備強大的庫存管理功能,還集成了高性能的輕量級 POS 解決方案,確保頁面載入速度極快,提供良好的用戶體驗。 項目介紹 Dorisoy.POS 是一款基於 .NET 7 和 Angular 4 開發的新零售快消進銷存管理 ...
  • ABP CLI常用的代碼分享 一、確保環境配置正確 安裝.NET CLI: ABP CLI是基於.NET Core或.NET 5/6/7等更高版本構建的,因此首先需要在你的開發環境中安裝.NET CLI。這可以通過訪問Microsoft官網下載並安裝相應版本的.NET SDK來實現。 安裝ABP ...
  • 問題 問題是這樣的:第三方的webapi,需要先調用登陸介面獲取Cookie,訪問其它介面時攜帶Cookie信息。 但使用HttpClient類調用登陸介面,返回的Headers中沒有找到Cookie信息。 分析 首先,使用Postman測試該登陸介面,正常返回Cookie信息,說明是HttpCli ...
  • 國內文章 關於.NET在中國為什麼工資低的分析 https://www.cnblogs.com/thinkingmore/p/18406244 .NET在中國開發者的薪資偏低,主要因市場需求、技術棧選擇和企業文化等因素所致。歷史上,.NET曾因微軟的閉源策略發展受限,儘管後來推出了跨平臺的.NET ...
  • 在WPF開發應用中,動畫不僅可以引起用戶的註意與興趣,而且還使軟體更加便於使用。前面幾篇文章講解了畫筆(Brush),形狀(Shape),幾何圖形(Geometry),變換(Transform)等相關內容,今天繼續講解動畫相關內容和知識點,僅供學習分享使用,如有不足之處,還請指正。 ...
  • 什麼是委托? 委托可以說是把一個方法代入另一個方法執行,相當於指向函數的指針;事件就相當於保存委托的數組; 1.實例化委托的方式: 方式1:通過new創建實例: public delegate void ShowDelegate(); 或者 public delegate string ShowDe ...