獲取所有的列表_ZenDei技術網路在線

獲取所有的列表

-Advertisement-

import urllib import time ##讀取指定的網址 url = [] page = 1 while page <= 11: url_con = urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1193111400_0_' ...

import urllib
import time
##讀取指定的網址
url = []
page = 1
while page <= 11:
    url_con = urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1193111400_0_'+str(page)+'.html').read()
    print 'con' ,url_con

    i = 0
    title = url_con.find(r'<a title=')

    print "title",title
    href = url_con.find(r'href=',title)
    print "href",href

    html = url_con.find(r'.html',href)
    print "html",html


    while title != -1 and href != -1 and html != -1 and i < 40:
        url.append(url_con[href+6:html+5])
        print page,url[i]
        title = url_con.find(r'<a title=',html)
        
        href = url_con.find(r'href=',title)
        
        html = url_con.find(r'.html',href)
        
        filename = url[-26:]

        i = i + 1
    else:
        print page, 'find end'
    page = page + 1
else:
    print 'all find end !'
j = 0
k = len(url)
print "url sum:",k
while j < k:
    content = urllib.urlopen(url[j]).read()
    filename = url[j][-26:]
    open(r'blog/'+ filename,'w').write(content)
    j = j + 1
    time.sleep(5)

View Code

以上代碼是獲取所有博客文章列表，並讀取其內容，並輸出html

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

C#實現工作日和休息日(包括法定節假日)的計算

早就萌生了寫博客的想法，一直到現在才動手，原因有多方面，歸根結底就是一個字~懶。今天無意看到一片博文，覺得裡面說得幾點原因很對，原文地址：我們為什麼應該堅持寫博客，感謝作者，讓我有動力寫了這篇博文。其實寫博文是想記錄自己遇到的一些問題的解決思路，方便以後查閱，同時希望可以跟大家一起交流提高。先介 ...
Quarzt定時調度任務

簡介 Quarzt是一個項目中定時執行任務的開源項目,Quartz是OpenSymphony開源組織在Job scheduling領域又一個開源項目，它可以與J2EE與J2SE應用程式相結合也可以單獨使用，這裡我們介紹和整合的例子因為Spring已經整合Quarzt，所以我們只需要配置一下即可。 ...
加快cin、cout輸入輸出的小技巧

std::ios::sync_with_stdio(false); std::cin.tie(nullptr); 第一句話是解除ios與stdio之間的同步關係。第二句話是解除cin與cout之間的綁定。在開始讀入數據前，插入這兩句話就可以加快cin、cout的輸入輸出速度。cin、cout運作速 ...
第四章函數作業題，有參函數的調用

一個方法可以執行不同個數參數，前提是聲明時賦值 ...
第四章函數作業題，函數模板

什麼是函數模板？就是不寫具體的數據類型，而用一個虛擬類型來代表，這樣可以提高效率。 ...
<學習筆記>關於圖的理論知識

什麼是圖|ω･`) 圖G是一個有序二元組(V,E)，其中V稱為頂集(Vertices Set)，E稱為邊集(Edges set)，E與V不相交。它們亦可寫成V(G)和E(G)。 E的元素都是二元組，用(x,y)表示，其中x,y∈V。（摘自百度百科）簡單來說，圖就是由點和邊組成的東西。也可以理解為 ...
第四章函數作業題，內置函數

什麼是內置函數？也成內聯函數嵌入到主函數中的函數稱為內置函數，也就是雖然函數寫在main()的外邊，但是我們通過一個關鍵字inline進行標識，這樣就可以把寫在外邊的函數當成寫在了主函數main()的裡邊。一個函數寫在主函數外邊與寫在主函數裡邊有什麼區別？都可以正常運行，但程式效率不同。寫在主函 ...
下載博客首頁的博客列表

以上代碼是獲取博客文章的列表 ...