爬蟲簡單實現

来源:http://www.cnblogs.com/python924/archive/2016/04/08/5368471.html

-Advertisement-

...

實現功能：把http://tieba.baidu.com/p/2460150866上的圖片都爬下來保存在本地項目文件里

分為三個step
1.獲取頁面
2.根據正則表達式獲取圖片
3.保存圖片到本地


代碼如下：

#coding=utf-8
import urllib
import re

#get the page
def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html


def getImg(html):

    # get the img from the page
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)

    # save the img to the project folder
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,'%s.jpg' % x)
        x+=1

html = getHtml("http://tieba.baidu.com/p/2460150866")

print getImg(html)

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

JAVA基礎知識總結

JAVA基礎知識總結寫代碼：1，明確需求。我要做什麼？2，分析思路。我要怎麼做？1,2,3。3，確定步驟。每一個思路部分用到哪些語句，方法，和對象。4，代碼實現。用具體的java語言代碼把思路體現出來。學習新技術的四點：1，該技術是什麼？2，該技術有什麼特點(使用註意)：3，該技術怎麼使用。demo ...
Java版冒泡排序和選擇排序

一、理解說明 1.理解和記憶冒泡排序：依次定位數組元素，每次只和相鄰的且符合條件的元素交換位置。選擇排序：依次在數組的每個位置，通過逐個對比選擇出最大或最小的元素。 2.知識點說明 (1)數組是引用類型。當方法參數是基本數據類型時，形參值發生改變並不影響實參值。當方法參數是引用類型時，實際傳 ...
大型網站帶來的問題

大型網站帶來的問題主要是三個方面大的併發併發的概念：對於一個網站，在某一個時間點內（一般都是為1s內），訪問用戶的總和，平均值是絲毫沒有含義。通常為最高點的值。一般伺服器是以這個最高點然後在增加 30% 冗餘配置。大的流量主要是用於用戶的訪問，每個頁面有很多的數據需要傳遞。海量數據的存儲 ...
使用JFinal的第一個項目出現的問題（The return type is incompatible with JspSourceDependent.getDependants()）

四月 08, 2016 4:35:34 下午 org.apache.catalina.core.ApplicationDispatcher invoke嚴重: Servlet.service() for servlet jsp threw exceptionorg.apache.jasper.Jas ...
JAVA第四次作業

改進後的代碼：用時對比：期末作業規劃：做一個類似下麵的視頻播放器實現功能：播放本地視頻播放/暫停快進/快退聲音調節全屏最小化/最大化/關閉小組成員：王雨程志鴻郭強 ...
PHP開發套件

Windows系統下開發環境配置： PHPstudy 立即下載開發工具： PHPstorm 立即下載引用一個註冊伺服器地址：潘田--phpstorm 2016.1註冊碼當然推薦大家使用正版另外提一下功能變數名稱解析到本地的方法（Windows系統）：用記事本打開系統盤（c:）Windows/sy ...
構建 shiro struts2 spring3 mybatis 的maven項目

書接上回構建 struts2 spring3 mybatis 的maven項目構建 pom.xml 繼續在原有框架下融合shiro ，具體shiro是啥這裡就不解釋了，恩反正功能挺強大的本著先會用再深入的原則，還是嘗試著將shiro融入框架中 0 首先上下這個項目的整體結構圖 1 在導入 ...
[Laravel] Laravel的基本使用

[Laravel] Laravel的基本HTTP路由使用Laravel的基本路由，實現get請求響應，找到文件app/Http/routes.php 調用Route的靜態方法get()，實現get響應，參數：string類型的路徑，匿名函數function(){} 匿名函數內部，返回string數 ...

一周排行

-Advertisement-

移動開發（一）：使用.NET MAUI開發第一個安卓APP

移動開發（一）：使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說，近來想嘗試開發一款安卓APP，考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP，畢竟是使用Visual Studio開發工具，使用起來也比較的順手，結合微軟官方的教程進行了安卓 ...
wpf ToggleButton選中效果和一個登錄界面

前言 QuestPDF 是一個開源 .NET 庫，用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。項目介紹 QuestPDF 是一個革命性的開源 .NET 庫，它徹底改變了我們生成 PDF 文檔的方 ...
彈幕樹洞項目功能新增篇

項目地址項目後端地址： https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址： ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址： http://tree ...
第27篇 sqlserver2022詳細安裝步驟

話不多說，直接開乾一.下載 1.官方鏈接下載： https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe，運行開始下載SQL server；二. ...
.NET 開源高性能 MQTT 類庫

前言隨著物聯網（IoT）技術的迅猛發展，MQTT（消息隊列遙測傳輸）協議憑藉其輕量級和高效性，已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫，為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。本文將全面介紹 MQTTnet 的核心功能 ...
Serilog文檔翻譯系列（六） - 可用的接收器、增強器、格式化輸出

Serilog支持多種接收器用於日誌存儲，增強器用於添加屬性，LogContext管理動態屬性，支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項，適用於不同需求。 ...
警惕 Visual Studio 屬性求值副作用導致邏輯不符合預期

目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章簡介動態內容網站使用 JavaScript 腳本動態檢索和渲染數據，爬取信息時需要模擬瀏覽器行為，否則獲取到的源碼基本是空的。本文使用的爬取步驟如下：使用 Selenium 獲取渲染後的 HTML 文檔使用 HtmlAgility ...
[使用目前最新版]HybridCLR6.9.0+YooAsset2.2.4實現純C# Unity熱更新方案 (一)

1.前言什麼是熱更新游戲或者軟體更新時，無需重新下載客戶端進行安裝，而是在應用程式啟動的情況下，在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR，Xlua，ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles，Addressable， ...
在 ASP.NET Core Web API 中使用操作篩選器統一處理通用操作

本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺，其實像阿裡雲，騰訊雲上面也可以。首先我們先去互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號註冊完成賬號後，它會送 ...
第28篇如何.net中實現高效可靠數據同步api

通過以下方式可以高效，並保證數據同步的可靠性 1.API設計使用RESTful設計，確保API端點明確，並使用適當的HTTP方法（如POST用於創建，PUT用於更新）。設計清晰的請求和響應模型，以確保客戶端能夠理解預期格式。 2.數據驗證在伺服器端進行嚴格的數據驗證，確保接收到的數據符合預期格 ...

所有分類