python簡單爬蟲編寫_ZenDei技術網路在線

python簡單爬蟲編寫

-Advertisement-

1.主要學習這程式的編寫思路 a.讀取解釋網站 b.找到相關頁 c.找到圖片鏈接的元素 d.保存圖片到文件夾 ..... 將每一個步驟都分解出來,然後用函數去實現,代碼易讀性高. ##代碼儘快運行時會報錯,還須修改 import urllib.request import os def url_op

1.主要學習這程式的編寫思路

a.讀取解釋網站

b.找到相關頁

c.找到圖片鏈接的元素

d.保存圖片到文件夾

.....

將每一個步驟都分解出來,然後用函數去實現,代碼易讀性高.

##代碼儘快運行時會報錯,還須修改

import urllib.request
import os

def url_open(url):    #讀取解釋
    req = urllib.request.Request(url)
 #   req.add_header(\'User-Agent\',\'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36\')
    response = urllib.request.urlopen(req)
    html = response.read()

    return html

def get_page(url):   #找到相關頁
    html = url_open(url)

    a = html.find('current-comment-page')
    b = html.find(a)

    return html[a:b]


def find_imgs(url):  #找到圖片鏈接的元素
    html = url_open(url)
    img_addrs = []

    a = html.find('img src=')

    while a != -1:
        b = html.find('.jpg',a,a +255')
        if b !=-1:
            img_addrs.append(html[a+9:b+4])
        else:
            b = a +9

        a = html.find('img src=',b')

    return img_addrs

def save_imgs(folder, img_addrs):   #保存圖片到文件夾
    for each in img_addrs:
        filename = each.split('\'/\'')
        with open(filename,'wb') as f:
            img =url_open(each)
            f.write(img)


def download_mm(folder='OOXX',pages=10):
    os.mkdir(folder)
    os.chdir(folder)

    url = 'http://jandan.net/ooxx/'
    page_num = int(get_page(url))

    for i in range(pages):
        page_num -= i
        page_url = url + 'page-' + str(page_num) + '#comments'
        img_addrs = find_imgs(page_url)
        save_imgs(img_addrs)

if __name__ == '__main__':
    download_mm()

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Asp.net生成靜態網頁的實現代碼

現在做程式都要將動態的頁面轉換成靜態頁面，今天教大家在ASP.NET 中實現靜態頁面的生成方法。 using System; using System.Data; using System.Configuration; using System.Web; using System.Web.Secur
C#實現網頁爬蟲

HTTP請求工具類(功能：1、獲取網頁html；2、下載網路圖片；)： using System; using System.Collections.Generic; using System.IO; using System.Linq; using System.Net; using System
WPF 後臺數據觸發改變界面狀態-心跳實現

今年做的一個上位機工控WPF項目,做個小小的總結把,以後隨時來找請不要帶血亂噴,我只是菜鳥.___by 鮑隊類似於這樣子的;大致的意思是:一個代碼變數,通過改變變數的值,綁定這個變數的這個圓顏色也在變化就是一種心跳效果在網上數據觸發的感覺不多,廢了不少時間,這裡做個總結 1:通知 class
ASP.NET 系列：RBAC許可權設計

許可權系統的組成通常包括RBAC模型、許可權驗證、許可權管理以及界面訪問控制。現有的一些許可權系統分析通常存在以下問題：（1）沒有許可權的設計思路認為所有系統都可以使用一套基於Table設計的許可權系統。事實上設計許可權系統的重點是判斷角色的穩定性和找出最小授權需求。角色的穩定性決定了系統是通過角色判斷許可權還
工作流資料庫表設計-ASP.NET

公司準備開發一套工作流引擎，以前沒有什麼OA開發經驗，也是第一次設計工作流引擎，我把我的一些思路分享一下，希望得到些幫助或者能幫助到一些人。產品的定位： 1、能夠做到前後端分離 2、可以做到項目的分離使用，通過介面來實現 3、支持複雜流程邏輯例如：填寫加班表單-》多人審核=》退回=》填寫證明人
python之計算器操作（第四天）

作業：使用正則表達式和遞歸實現計算器功能。實現： 1、實現帶括弧的計算 2、實現指數、加減乘除求餘等功能一、實例說明：本實例自己寫了個版本，但依舊存在一點bug，例：-2-2等計算問題，故最後在武SIR的代碼基礎上加了指數、求餘等功能。該計算器思路： 1、遞歸尋找表達式中只含有數字和運算
python基礎:os模塊中關於文件/目錄常用的函數使用方法

Python是跨平臺的語言，也即是說同樣的源代碼在不同的操作系統不需要修改就可以同樣實現因此Python的作者就倒騰了OS模塊這麼一個玩意兒出來，有了OS模塊，我們不需要關心什麼操作系統下使用什麼模塊，OS模塊會幫你選擇正確的模塊並調用 os模塊中關於文件/目錄常用的函數使用方法os.path模塊
eclipse初次創建maven-web項目時Could not resolve archetype org.apache.maven.archetypes:maven-archetype-webap 解決方案

轉載:http://blog.csdn.net/afgasdg/article/details/12757433