爬蟲——使用BeautifulSoup4的爬蟲

来源:http://www.cnblogs.com/mayi0312/archive/2017/07/23/7224198.html
-Advertisement-
Play Games

我們以騰訊社招頁面來做示例:http://hr.tencent.com/position.php?&start=0#a 如上圖,使用BeautifulSoup4解析器,將圖1中229頁,每頁10個招聘信息,共2289個招聘信息中的職位名稱、職位類別、招聘人數、工作地點、工作職責、工作要求、詳情鏈接等 ...


我們以騰訊社招頁面來做示例:http://hr.tencent.com/position.php?&start=0#a

如上圖,使用BeautifulSoup4解析器,將圖1中229頁,每頁10個招聘信息,共2289個招聘信息中的職位名稱、職位類別、招聘人數、工作地點、工作職責、工作要求、詳情鏈接等信息存儲在本地磁碟(如下圖)。

#!/usr/bin/python3
# -*- conding:utf-8 -*-
__author__ = 'mayi'

"""
案例:使用BeautifulSoup4爬取騰訊招聘頁面的數據
url:http://hr.tencent.com/position.php?&start=10#a
使用BeautifulSoup4解析器,爬取每個招聘詳情頁面裡面的:
職位名稱、工作地點、職位類別、招聘人數、工作職責、工作要求、url鏈接
"""

from bs4 import BeautifulSoup
import urllib.request
import json


# 創建一個爬蟲類
class TencentSpider(object):
    """
    一個爬蟲類:爬取騰訊招聘頁面信息
    """
    def __init__(self):
        """
        初始化函數
        :return:
        """
        # User-Agent頭
        self.header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'}
        self.url = "http://hr.tencent.com/"
        self.file_name = open("tencent.txt", "w", encoding = "utf-8")

        # 爬蟲開始工作
        self.run()

    def run(self):
        """
        爬蟲開始工作
        :return:
        """
        # 首頁
        start_page = 1
        # 尾頁
        end_page = self.getLastPage(self.url + "position.php?&start=0#a")
        # 迴圈處理每一頁
        for page in range(start_page, end_page + 1):
            print("正在處理第" + str(page) + "頁")
            # 每一頁有10個招聘信息
            pn = (page - 1) * 10
            # 接接成完整的url地址
            full_url = self.url + "position.php?&start=" + str(pn) + "#a"
            # 獲取招聘詳情鏈接:l square
            link_list = self.getPositons(full_url)
            for link in link_list:
                # 拼接成完整的鏈接
                full_link = self.url + link
                # 獲取招聘信息頁面里的所需爬取的信息
                self.getPositionInfo(full_link)

        # 關閉文件
        self.file_name.close()

    def getLastPage(self, url):
        """
        獲取尾頁的page值
        :param url: 首頁的url地址
        :return: 尾頁的page值
        """
        # 獲取url頁面的內容:bytes
        html = self.loadPage(url)
        # bytes轉utf-8
        html = html.decode("utf-8")
        # 創建 Beautiful Soup 對象,指定lxml解析器
        soup = BeautifulSoup(html, "lxml")
        page_nav = soup.select('div[class="pagenav"]')[0]
        page = page_nav.find_all('a')[-2].get_text()

        return int(page)

    def loadPage(self, url):
        """
        獲取url頁面的內容
        :param url: 需要獲取內容的url地址
        :return: url頁面的內容
        """
        # url 連同 headers,一起構造Request請求,這個請求將附帶 chrome 瀏覽器的User-Agent
        request = urllib.request.Request(url, headers = self.header)
        # 向伺服器發送這個請求
        response = urllib.request.urlopen(request)
        # time.sleep(3)
        # 獲取網頁內容:bytes
        html = response.read()

        return html

    def getPositons(self, url):
        """
        獲取url頁面內的招聘詳情鏈接
        :param url:
        :return:
        """
        # 獲取url頁面的內容:bytes
        html = self.loadPage(url)
        # bytes轉utf-8
        html = html.decode("utf-8")
        # 創建 Beautiful Soup 對象,指定lxml解析器
        soup = BeautifulSoup(html, "lxml")

        item_list = soup.select('td[class="l square"]')
        link_list = []
        for item in item_list:
            item = item.select('a')[0].attrs['href']
            link_list.append(item)

        return link_list

    def getPositionInfo(self, url):
        """
        獲取我們需爬取的信息
        :param url: 招聘詳情頁面
        :return: None
        """
        # 獲取url頁面的內容:bytes
        html = self.loadPage(url)
        # bytes轉utf-8
        html = html.decode("utf-8")
        # 創建 Beautiful Soup 對象,指定lxml解析器
        soup = BeautifulSoup(html, "lxml")
        # 用於存儲所爬取信息的字典
        item = {}
        try:
            # 職位名稱
            position_name = soup.find_all(id="sharetitle")[0].get_text()
            # 工作地點、職位類型、招聘人數
            bottomline = soup.select('tr[class="c bottomline"] td')
            # 工作地點
            working_place = bottomline[0].get_text()[5:]
            # 職位類別
            position_category = bottomline[1].get_text()[5:]
            # 招聘人數
            numbers = bottomline[2].get_text()[5:]
            # 工作職責
            operating_duty_list = soup.select('ul[class="squareli"]')[0].select('li')
            operating_duty = ""
            for duty in operating_duty_list:
                operating_duty += duty.get_text().strip() + "\n"
            # 工作要求
            requirements_list = soup.select('ul[class="squareli"]')[1].select('li')
            requirements = ""
            for requ in requirements_list:
                requirements += requ.get_text().strip() + "\n"
            # url鏈接
            url_links = url
            # 職位名稱、工作地點、職位類別、招聘人數、工作職責、工作要求、url鏈接
            item["職位名稱"] = position_name
            item["工作地點"] = working_place
            item["職位類別"] = position_category
            item["招聘人數"] = numbers
            item["工作職責"] = operating_duty
            item["工作要求"] = requirements
            item["url鏈接"] = url_links
        except:
            # 若異常、則捨棄這條信息
            pass
        # 保存這條記錄
        if item:
            line = json.dumps(item, ensure_ascii = False) + "\n"
            self.file_name.write(line)

# 主函數
if __name__ == '__main__':
    my_spider = TencentSpider()

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • * 以下內容是我在準備java面試的時候覺得有用,面試官很可能會問的一些問題 * 內容(除了代碼)詳情來自網路(學習的時候遇到不會的百度的 (*^__^*) ) * 如果大家發現有什麼地方不對,請告訴我。謝啦!!☆⌒(*^-゜)v 1:java的基礎類型 Java語言提供了八種基本語言 boolea ...
  • 控制器: $User = M('webcase'); // 實例化 User 對象 $list = $User->order('id desc')->page($_GET['p'].',6')->select();$this->assign('list',$list);// 賦值數據集$count ...
  • 函數 描述dir([obj]) 顯示對象的屬性,如果沒有提供參數, 則顯示全局變數的名字help([obj]) 以一種整齊美觀的形式 顯示對象的文檔字元串, 如果沒有提供任何參數, 則會進入互動式幫助。int(obj) 將一個對象轉換為整數len(obj) 返回對象的長度open(fn, mode) ...
  • 轉自此人博客 #include<bister> using std::bitset; 一句話定義:可自定義位數,用作記錄二進位的數據類型. 一,定義和初始化 bitset<n> b; //b有n位,每位都為0; bitset<n> b(u); //b是unsigned long型u的副本 bitse ...
  • 將實現類通過網路的方式下載下來,以達到動態載入的目的 git地址:https://coding.net/u/mich/p/easytry/git/tree/master/src/com/netclassloader ...
  • 捲積神經網路(Convolutional Neural Network,CNN),可以解決圖像識別、時間序列信息問題。深度學習之前,藉助SIFT、HoG等演算法提取特征,集合SVM等機器學習演算法識別圖像。 SIFT,縮放、平移、旋轉、視角轉變、亮度調整畸變的一定程度內,具有不變性。有局限性,Image ...
  • shelve模塊 shelve類似於一個key-value資料庫,可以很方便的用來保存Python的記憶體對象,其內部使用pickle來序列化數據,簡單來說,使用者可以將一個列表、字典、或者用戶自定義的類實例保存到shelve中,下次需要用的時候直接取出來,就是一個Python記憶體對象,不需要像傳統數 ...
  • 程式聲明將整型變數的類型告訴了C++編譯器,但編譯器如何知道常量類型呢? 除非有理由(如使用特殊尾碼,或者值太大無法存儲為int),不然都將存儲為int類型 尾碼是放在數字常量後面的字母 l、L表示long常量 u、U表示unsigned int ul(UL)或lu(LU)表示unsigned in ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...