Python--開發簡單爬蟲

来源:https://www.cnblogs.com/ailiailan/archive/2018/06/03/9129521.html
-Advertisement-
Play Games

簡單爬蟲架構 動態運行流程 URL管理器的作用 URL管理器的3種實現方式 網頁下載器的作用 Python網頁下載器的種類 urllib2下載網頁的3種方法 網頁解析器的作用 Python的幾種網頁解析器 結構化解析依賴DOM樹 Beautiful Soup語法 代碼舉例: 1.創建Beautifu ...


簡單爬蟲架構

動態運行流程

URL管理器的作用

URL管理器的3種實現方式

網頁下載器的作用

Python網頁下載器的種類

urllib2下載網頁的3種方法

網頁解析器的作用

Python的幾種網頁解析器

結構化解析依賴DOM樹

Beautiful Soup語法

代碼舉例:

1.創建Beautiful Soup對象

1 from bs4 import BeautifulSoup
2 
3 soup = BeautifulSoup(
4     html_doc,               #HTML文檔字元串
5     'heml.parser',          #HTML解析器
6     from_encoding='utf-8'   #HTML文檔的編碼
7 )

2.find_all find方法的使用

3.訪問節點信息

4.Beautiful Soup處理html文檔舉例

 1 from bs4 import BeautifulSoup
 2 import re
 3 
 4 html_doc = """
 5 <html><head><title>The Dormouse's story</title></head>
 6 <body>
 7 <p class="title"><b>The Dormouse's story</b></p>
 8 
 9 <p class="story">Once upon a time there were three little sisters; and their names were
10 <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
11 <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
12 <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
13 and they lived at the bottom of a well.</p>
14 
15 <p class="story">...</p>
16 """
17 
18 soup = BeautifulSoup(
19     html_doc,               #HTML文檔字元串
20     'html.parser',          #HTML解析器
21     from_encoding='utf-8'   #HTML文檔的編碼
22 )
23 
24 print('獲取所有的連接')
25 links = soup.find_all('a')
26 for link in links:
27     print(link.name,link['href'],link.get_text())
28 
29 print('獲取tillie的連接')
30 link_node = soup.find('a',href='http://example.com/tillie')
31 print(link_node.name,link_node['href'],link_node.get_text())
32 
33 print('正則表達式匹配')
34 link_node2 = soup.find('a',href=re.compile(r'lsi'))
35 print(link_node2.name,link_node2['href'],link_node2.get_text())
36 
37 print('獲取P段落文字')
38 p_node = soup.find('p',class_='title')
39 print(p_node.name,p_node.get_text())

控制台輸出:

 1 獲取所有的連接
 2 a http://example.com/elsie Elsie
 3 a http://example.com/lacie Lacie
 4 a http://example.com/tillie Tillie
 5 獲取tillie的連接
 6 a http://example.com/tillie Tillie
 7 正則表達式匹配
 8 a http://example.com/elsie Elsie
 9 獲取P段落文字
10 p The Dormouse's story

更高級的爬蟲還會涉及到“需登陸、驗證碼、Ajax、伺服器防爬蟲、多線程、分散式”等情況

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 老樣子,拋出個問題,我們想要創建一個實例,但是由於某些原因想繞過__init__方法,用別的方式來進行創建。 舉個慄子 小賤賤反序列化數據,或者說實現一個類方法將其作為備選的構造函數,都屬於這種情況。舉個慄子: 採用下麵的方法可以不用調用__init__()創建一個Date實例: 但是註意,此時使用 ...
  • 一、文件的上傳和下載 1、文件上傳的原理分析 什麼是文件上傳? 要將客戶端(瀏覽器)數據存儲到伺服器端,而不將數據直接存儲到資料庫中,而是要將數據存儲到伺服器所在的磁碟上,這就要使用文件上傳。為什麼使用文件上傳? 通過文件上傳,可以將瀏覽器端的數據直接保存到伺服器端。不將數據保存到資料庫中,而是保存 ...
  • 在各種後臺系統中都會涉及到許可權的管控,從功能許可權的管控,到數據許可權的管控,都是為了讓系統的在使用的過程中更加的安全。功能許可權管控是對針對不同的角色可以進行不同的功能操作,而數據許可權管控是針對不同的角色可以查看不同的數據。這篇文章主要介紹 JeeSite 中對功能許可權的管控,也就是訪問控制許可權的使用, ...
  • sprign中的logging實現簡介 對於spring架構,Jakarta Commons Logging API (JCL)是強制依賴的。spring將JCL反編譯,並使得它們對類可見,從而擴展spring。程式員應該要意識到,所有版本的spring使用同一個logging庫:因此遷移是很容易的 ...
  • 今晚在Ubuntu環境上安裝composer後,想查看下是否安裝成功,使用composer v,結果提示:/usr/bin/env: php: 沒有那個文件或目錄 現說說我的解決辦法: 它提示的原因,主要是因為php的安裝文件不在/usr/local/bin下。解決辦法也很簡單,就是把php的可執行 ...
  • 原創 標題:激光樣式x星球的盛大節日為增加氣氛,用30台機光器一字排開,向太空中打出光柱。安裝調試的時候才發現,不知什麼原因,相鄰的兩台激光器不能同時打開!國王很想知道,在目前這種bug存在的情況下,一共能打出多少種激光效果?顯然,如果只有3台機器,一共可以成5種樣式,即:全都關上(sorry, 此 ...
  • 引言 上一篇文章瞭解了kafka的重要組件zookeeper,用來保存broker、consumer等相關信息,做到平滑擴展。這篇文章就實際操作部署下kafka,用幾個簡單的例子加深對kafka的理解,學會基本使用kafka。 環境搭建 我將會在本地部署一個三台機器的zookeeper集群,和一個2 ...
  • 1 視圖傳遞多個參數 (1) 普通傳參 : 關鍵字參數傳遞 (2) 字典傳參 : 以字典的形式傳遞 (3) 全局變數g傳遞 視圖中: 模板中 (4) 傳遞全部的本地變數給template,使用 locals() ,直接獲取變數值 test.html中 2 錯誤頁面定製 指定錯誤頁面:只需要一個錯誤模 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...