爬蟲簡單實現

来源:http://www.cnblogs.com/python924/archive/2016/04/08/5368471.html
-Advertisement-
Play Games

...


實現功能:把http://tieba.baidu.com/p/2460150866上的圖片都爬下來保存在本地項目文件里

分為三個step
1.獲取頁面
2.根據正則表達式獲取圖片
3.保存圖片到本地


代碼如下:
#coding=utf-8
import urllib
import re

#get the page
def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html


def getImg(html):

    # get the img from the page
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)

    # save the img to the project folder
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,'%s.jpg' % x)
        x+=1

html = getHtml("http://tieba.baidu.com/p/2460150866")

print getImg(html)

  




您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • JAVA基礎知識總結寫代碼:1,明確需求。我要做什麼?2,分析思路。我要怎麼做?1,2,3。3,確定步驟。每一個思路部分用到哪些語句,方法,和對象。4,代碼實現。用具體的java語言代碼把思路體現出來。學習新技術的四點:1,該技術是什麼?2,該技術有什麼特點(使用註意):3,該技術怎麼使用。demo ...
  • 一、理解說明 1.理解和記憶 冒泡排序:依次定位數組元素,每次只和相鄰的且符合條件的元素交換位置。 選擇排序:依次在數組的每個位置,通過逐個對比選擇出最大或最小的元素。 2.知識點說明 (1)數組是引用類型。 當方法參數是基本數據類型時,形參值發生改變並不影響實參值。 當方法參數是引用類型時,實際傳 ...
  • 大型網站帶來的問題 主要是三個方面 大的併發 併發的概念:對於一個網站,在某一個時間點內(一般都是為1s內),訪問用戶的總和,平均值是絲毫沒有含義。通常為最高點的值。一般伺服器是以這個最高點然後在增加 30% 冗餘配置。 大的流量 主要是用於用戶的訪問,每個頁面有很多的數據需要傳遞。 海量數據的存儲 ...
  • 四月 08, 2016 4:35:34 下午 org.apache.catalina.core.ApplicationDispatcher invoke嚴重: Servlet.service() for servlet jsp threw exceptionorg.apache.jasper.Jas ...
  • 改進後的代碼: 用時對比: 期末作業規劃: 做一個類似下麵的視頻播放器 實現功能: 播放本地視頻 播放/暫停 快進/快退 聲音調節 全屏 最小化/最大化/關閉 小組成員:王雨 程志鴻 郭強 ...
  • Windows系統下開發 環境配置: PHPstudy 立即下載 開發工具: PHPstorm 立即下載 引用一個註冊伺服器地址:潘田--phpstorm 2016.1註冊碼 當然推薦大家使用正版 另外提一下功能變數名稱解析到本地的方法(Windows系統): 用記事本打開系統盤(c:)Windows/sy ...
  • 書接上回 構建 struts2 spring3 mybatis 的maven項目 構建 pom.xml 繼續在原有框架下 融合shiro ,具體shiro是啥 這裡就不解釋了,恩 反正功能挺強大的 本著先會用再深入的原則,還是嘗試著將shiro融入框架中 0 首先上下這個項目的整體結構圖 1 在導入 ...
  • [Laravel] Laravel的基本HTTP路由 使用Laravel的基本路由,實現get請求響應,找到文件app/Http/routes.php 調用Route的靜態方法get(),實現get響應,參數:string類型的路徑,匿名函數function(){} 匿名函數內部,返回string數 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...