Python 爬蟲實戰:駕馭數據洪流,揭秘網頁深處

来源:https://www.cnblogs.com/xfuture/archive/2023/07/06/17531982.html
-Advertisement-
Play Games

**爬蟲,這個經常被人提到的詞,是對數據收集過程的一種形象化描述。特別是在Python語言中,由於其豐富的庫資源和良好的易用性,使得其成為編寫爬蟲的絕佳選擇。本文將從基礎知識開始,深入淺出地講解Python爬蟲的相關知識,並分享一些獨特的用法和實用技巧。本文將以實際的網站為例,深入闡述各個處理部分, ...


爬蟲,這個經常被人提到的詞,是對數據收集過程的一種形象化描述。特別是在Python語言中,由於其豐富的庫資源和良好的易用性,使得其成為編寫爬蟲的絕佳選擇。本文將從基礎知識開始,深入淺出地講解Python爬蟲的相關知識,並分享一些獨特的用法和實用技巧。本文將以實際的網站為例,深入闡述各個處理部分,並展示輸出,助力大家快速掌握Python爬蟲技巧。

開始之前:必要的庫

Python有很多庫可以用來編寫爬蟲,但我們這裡重點介紹兩個:requests和BeautifulSoup。

import requests
from bs4 import BeautifulSoup

requests庫用於發送HTTP請求,而BeautifulSoup庫則用於解析HTTP響應中的HTML。

基本爬蟲:爬取全部網頁內容

以Python官方網站(https://www.python.org/)為例,一個基本的Python爬蟲可能會這樣編寫:

url = "https://www.python.org/"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
print(soup.prettify()[:500])

這段代碼的目的是獲取網頁的內容,並使用BeautifulSoup庫進行解析。我們可以看到,requests.get(url)是用來發送GET請求的,而BeautifulSoup(response.text, 'html.parser')則是用來解析HTTP響應中的HTML內容的。

這段代碼的輸出前500個字元如下:

<!DOCTYPE html>
<!--[if lt IE 7]>   <html class="no-js ie6 lt-ie7 lt-ie8 lt-ie9">   <![endif]-->
<!--[if IE 7]>      <html class="no-js ie7 lt-ie8 lt-ie9">          <![endif]-->
<!--[if IE 8]>      <html class="no-js ie8 lt-ie9">                 <![endif]-->
<!--[if gt IE 8]><!--><html class="no-js" dir="ltr" lang="en">  <!--<![endif]-->
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="Python.org" name="application-name"/>
<meta content="The official home of the Python Programming Language" 

使用CSS選擇器爬取特定元素

當我們希望獲取特定元素時,我們可以使用CSS選擇器。比如我們希望獲取Python官方網站中所有的頭部鏈接:

elements = soup.select('div.top-bar > ul > li > a')
for element in elements:
    print(element.get('href'), element.text)

在這裡,div.top-bar > ul > li > a是一個CSS選擇器,用來選擇

class為top-bar的div元素下的ul元素中的li元素下的a元素。這些a元素就是我們想要的頭部鏈接。

這段代碼的部分輸出如下:

/ Python
/psf-landing/ PSF
/docs/ Docs
/pypl/ PyPI
/jobs/ Jobs
/community-landing/ Community

HTML解析語言爬取:XPath

除了CSS選擇器,還有一種常用的HTML解析技術是XPath。XPath,全稱XML Path Language,是一門在XML文檔中查找信息的語言,也可以用在HTML文檔解析中。

Python的lxml庫提供了XPath的支持:

from lxml import etree

html = '<div><a href="/a">A</a><a href="/b">B</a></div>'
root = etree.HTML(html)

links = root.xpath('//a/@href')
print(links)

在這段代碼中,我們首先定義了一個HTML字元串。然後,我們使用etree.HTML()函數將這個字元串解析成一個DOM樹。最後,我們使用root.xpath()方法提取出所有的鏈接。

絕對鏈接爬取

你可能已經註意到,上述代碼的輸出中的鏈接是相對鏈接,而不是絕對鏈接。如果我們希望獲取絕對鏈接,我們可以使用urljoin函數:

from urllib.parse import urljoin

elements = soup.select('div.top-bar > ul > li > a')
for element in elements:
    absolute_url = urljoin(url, element.get('href'))
    print(absolute_url, element.text)

這段代碼的部分輸出如下:

https://www.python.org/ Python
https://www.python.org/psf-landing/ PSF
https://www.python.org/docs/ Docs
https://www.python.org/pypl/ PyPI
https://www.python.org/jobs/ Jobs
https://www.python.org/community-landing/ Community

動態載入的數據爬取:Selenium

在許多現代的網頁中,數據可能不是在頁面載入時一次性載入的,而是通過JavaScript在用戶與頁面交互時動態載入的。這時,我們可能需要使用另一個工具:Selenium。

from selenium import webdriver

driver = webdriver.Firefox()
driver.get('https://www.python.org/')

element = driver.find_element_by_css_selector('div.top-bar > ul > li > a')
print(element.text)

這段代碼使用Selenium模擬瀏覽器行為,獲取JavaScript動態載入的數據。在這個例子中,我們只獲取了第一個鏈接的文本,實際使用時,你可能需要根據需求進行更複雜的操作。

爬蟲代理

使用代理,可以幫助我們隱藏自己的真實IP地址,從而避免因爬取同一網站過多數據而被封IP。下麵是一段簡單的使用代理的代碼:

proxies = {
    "http": "http://10.10.1.10:3128",
    "https": "http://10.10.1.10:1080",
}

response = requests.get("https://www.python.org/", proxies=proxies)

在這裡,我們定義了一個代理字典,並將其傳給requests.get()函數。這樣,我們的請求就會通過代理伺服器發送,從而隱藏了我們的真實IP地址。

非同步爬蟲:提升爬蟲效率

在爬取大量數據時,我們通常需要進行多次HTTP請求,如果每次請求都等待前一次請求完成,那麼效率將會非常低。此時,我們可以使用Python的非同步IO庫asyncioaiohttp來提高效率。下麵是一個簡單的例子:

import asyncio
import aiohttp

async def fetch(session, url):
    async with session.get(url) as response:
        return await response.text()

async def main():
    async with aiohttp.ClientSession() as session:
        html = await fetch(session, 'http://python.org')
        print(html[:500])

loop = asyncio.get_event_loop()
loop.run_until_complete(main())

在這段代碼中,我們首先定義了一個非同步的fetch函數,用於發送HTTP請求並獲取響應。然後,我們在main函數中創建一個HTTP會話,並使用這個會話來發送請求。最後,我們使用事件迴圈來運行main函數。

爬蟲框架:Scrapy

雖然使用上述方法可以實現爬蟲的基本功能,但在處理更複雜的爬蟲任務時,我們可能需要一個更強大的工具。Scrapy是一個用Python實現的強大的爬蟲框架,它為我們提供了許多高級功能,比如併發請求、數據處理和存儲等。

下麵是一個簡單的Scrapy爬蟲的例子:

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://python.org']

    def parse(self, response):
        self.log('Visited %s' % response.url)
        yield {
            'url': response.url,
            'title': response.css('title::text').get(),
        }

在這段代碼中,我們定義了一個繼承自scrapy.Spider的爬蟲類。這個類中定義了爬蟲的名字、開始的URL和解析響應的方法。Scrapy將會自動為我們處理請求的發送和響應的接收,我們只需要關心如何從響應中提取數據即可。

自動化任務:定時爬蟲

有時我們需要定時執行爬蟲任務,比如每天爬取一次網站的數據。Python的schedule庫可以幫助我們實現這一點:

import schedule
import time

def job():
    print("I'm working...")

schedule.every(10).seconds.do(job)

while True:
    schedule.run_pending()
    time.sleep(1)

在這段代碼中,我們首先定義了一個爬蟲任務job。然後,我們使用schedule.every().seconds.do()方法設置任務的執行間隔。最後,我們使用一個無限迴圈來不斷執行待運行的任務。

爬蟲道德規範:遵守robots.txt

在進行爬蟲時,我們需要尊重網站的robots.txt規則。robots.txt是一個存放在網站根目錄下的文本文件,用於告訴爬蟲哪些頁面可以抓取,哪些頁面不可以抓取。

Python的urllib.robotparser模塊可以幫助我們解析robots.txt

from urllib.robotparser import RobotFileParser

rp = RobotFileParser()
rp.set_url('http://www.python.org/robots.txt')
rp.read()

can_fetch = rp.can_fetch('*', 'http://www.python.org/')
print(can_fetch)

在這段代碼中,我們首先創建了一個RobotFileParser對象,然後使用set_url方法設置robots.txt的URL,並使用read方法讀取和解析robots.txt。最後,我們使用can_fetch方法判斷我們的爬蟲是否可以抓取指定的URL。

請註意,不是所有的網站都有robots.txt,也不是所有的網站都會嚴格遵守robots.txt。在爬取網站時,除了尊重robots.txt,我們還應該儘量減小爬蟲對網站的影響,例如限制爬取頻率,避免在網站高訪問量的時候爬取。

總結

總結起來,Python爬蟲雖然有許多複雜的技術和知識點,但只要掌握了基礎知識和一些實用技巧,就可以解決大部分的爬蟲任務。未來,我將繼續分享更多的Python爬蟲知識和技巧。

如有幫助,請多關註
個人微信公眾號:【Python全視角】
TeahLead_KrisChang,10+年的互聯網和人工智慧從業經驗,10年+技術和業務團隊管理經驗,同濟軟體工程本科,復旦工程管理碩士,阿裡雲認證雲服務資深架構師,上億營收AI產品業務負責人。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • # Java 構造器 # 1. 構造器 ## 構造器也叫構造方法,是用來完成對象的初始化。 ## 構造器的定義: > ## 構造器的定義:[訪問修飾符] 方法名(形參),構造器與方法不同,並沒有返回值,也不能寫void,訪問修飾符可以是不同的,方法名要與本類的類名相同 > > ## 構造器的調用是由 ...
  • ### 1 .讓自己習慣C++ #### 條款01 視C++為一個語言聯邦 * `C` * `Object-Oriented C++` * `Template C++` * `STL` * `C++`高效編程守則視情況而變化,取決於你使用`C++`的哪一部分。 #### 條款02 儘量與const, ...
  • **startswith()方法** startswith() 方法用於檢索字元串是否以指定字元串開頭,如果是返回 True;反之返回 False。 **endswith()方法** endswith() 方法用於檢索字元串是否以指定字元串結尾,如果是則返回 True;反之則返回 False ``` ...
  • ### 1.os.system() os.system() 是對 C 語言中 system() 系統函數的封裝,允許執行一條命令,並返回退出碼(exit code),命令輸出的內容會直接列印到屏幕上,無法直接獲取。 示例: ```python # test.py import os os.syste ...
  • 哈嘍大家好,我是鹹魚 當我們說 Python 時,通常指的是官方實現的 CPython 但還有很多比如 Pypy、Jython、MicroPython、Brython、RustPython 等 “python” 許多小伙伴看到這些帶 “python” 的概念可能一頭霧水,心想這跟我平時接觸到的 py ...
  • # ServletContext對象 **每一個 web 應用都有且僅有一個 ServletContext 對象**,又稱為 Application 對象,從名稱中可知,該對象是與應用程式相關的。在WEB 容器啟動時,會為每一個 WEB 應用創建一個對應的 ServletContex對象。 **該對 ...
  • 當初剛開始學單鏈表學的是一頭霧水,簡直就是徹頭徹尾災難,一塌糊塗,過段時間後經過自己的重新認真思考再結合小練習明白了它是怎麼個回事兒。 1、首先從它的邏輯上入手,對他有大體認知。 簡單來說就是一個一個有方向小塊兒連在一起,好像疫情期間大家排隊做核酸,都朝著醫護人員那個方向,醫護人員會從第一個開始數有 ...
  • 目前為止,介紹的`numpy`數組基本都是關於數值的,其實,`numpy`本身就是一個用於數值計算的基礎庫。 不過,除了數值計算之外,`numpy`也能夠支持**結構化數組**。 # 1. 關聯不同類型數據 `numpy`的數組為了提高計算性能,要求數組的數據類型要一致。但是現實情況下,我們經常遇到 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...