Python 爬取CSDN博客頻道

来源:http://www.cnblogs.com/comkingfly/archive/2016/01/15/5134001.html
-Advertisement-
Play Games

初次接觸python,寫的很簡單,開發工具PyCharm,python 3.4很方便python 部分模塊安裝時需要其他的附屬模塊之類的,可以先pip install wheel然後可以直接下載whl文件進行安裝pip installlxml-3.5.0-cp34-none-win32.whl定義一...


初次接觸python,寫的很簡單,開發工具PyCharm,python 3.4很方便

python 部分模塊安裝時需要其他的附屬模塊之類的,可以先

pip install wheel

然後可以直接下載whl文件進行安裝

pip install lxml-3.5.0-cp34-none-win32.whl

定義一個類,準備保存的類型

class CnblogArticle:
    def __init__(self):
        self.num=''
        self.category=''
        self.title=''
        self.author=''
        self.postTime=''
        self.articleComment=''
        self.articleView=''

因為CSDN博客頻道只有18頁,所以解析18頁,有多線程解析(main註釋部分)及普通解析,在main方法里

註意事項:每個item以class=blog_list區分,部分item下有class=category,少部分沒有,所有要註意,否則會報錯

<div class="blog_list">
        <h1>
                    <a href="/other/index.html" class="category">[綜合]</a>
            <a name="49786427" href="http://blog.csdn.net/matrix_space/article/details/49786427" target="_blank">Python: scikit-image canny 邊緣檢測</a>

                    <img src="http://static.blog.csdn.net/images/icon-zhuanjia.gif" class="blog-icons" alt="專家" title="專家">
        </h1>
        
        <dl>
        <dt>
            <a href="http://blog.csdn.net/matrix_space" target="_blank">
                <img src="http://avatar.csdn.net/F/9/7/3_shinian1987.jpg" alt="shinian1987" />
            </a>
        </dt>          
        <dd>這個用例說明canny 邊緣檢測的用法

import numpy as np
import matplotlib.pyplot as plt
from scipy import ndimage as ndi
from skimage import feature


# Generate noisy image of a square
im = np.zeros((128, 128))
im[3...</dd>
        </dl>
        <p>
            <a class="tag" href="/tag/details.html?tag=python" target="_blank">python</a>
        </p>
        <div class="about_info">
                <span class="fr digg" id="digg_49786427" blog="1164951" digg="0" bury="0"></span>
            <span class="fl">
                <a href="http://blog.csdn.net/matrix_space" target="_blank" class="user_name">shinian1987</a>
                <span class="time">3小時前</span>
                <a href="http://blog.csdn.net/matrix_space/article/details/49786427" target="_blank" class="view">閱讀(104)</a>
                <a href="http://blog.csdn.net/matrix_space/article/details/49786427#comments" target="_blank" class="comment">評論(0)</a>
            </span>
        </div>
    </div>
<div class="blog_list">
        <h1>
            <a name="50524490" href="http://blog.csdn.net/u010579068/article/details/50524490" target="_blank">STL_演算法 for_each 和 transform 比較</a>

        </h1>
        
        <dl>
        <dt>
            <a href="http://blog.csdn.net/u010579068" target="_blank">
                <img src="http://avatar.csdn.net/9/9/B/3_u010579068.jpg" alt="u010579068" />
            </a>
        </dt>          
        <dd>C++ Primer 學習中。。。

&#160;

簡單記錄下我的學習過程&#160;(代碼為主)







所有容器適用
/**----------------------------------------------------------------------------------
for_each &#160; &#160; &#160; &#160; &#160; &#160; &#160; &#160; &#160; &#160;速度快 &#160; &#160; &#160; &#160; &#160; &#160; &#160;...</dd>
        </dl>
        <p>
            <a class="tag" href="/tag/details.html?tag=STL_演算法" target="_blank">STL_演算法</a>
            <a class="tag" href="/tag/details.html?tag=for_each" target="_blank">for_each</a>
            <a class="tag" href="/tag/details.html?tag=transform" target="_blank">transform</a>
            <a class="tag" href="/tag/details.html?tag=STL" target="_blank">STL</a>
        </p>
        <div class="about_info">
                <span class="fr digg" id="digg_50524490" blog="1499803" digg="0" bury="0"></span>
            <span class="fl">
                <a href="http://blog.csdn.net/u010579068" target="_blank" class="user_name">u010579068</a>
                <span class="time">3小時前</span>
                <a href="http://blog.csdn.net/u010579068/article/details/50524490" target="_blank" class="view">閱讀(149)</a>
                <a href="http://blog.csdn.net/u010579068/article/details/50524490#comments" target="_blank" class="comment">評論(0)</a>
            </span>
        </div>
    </div>

Beautiful Soup 4.2.0 文檔 可以去官網直接查看

# -*- coding:utf-8 -*-
from bs4 import BeautifulSoup
import urllib.request
import os
import sys
import time
import threading
class CnblogUtils(object):
    def __init__(self):
        self.headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36'}
        self.contentAll=set()

    def getPage(self,url=None):
        request=urllib.request.Request(url,headers=self.headers)
        response=urllib.request.urlopen(request)
        soup=BeautifulSoup(response.read(),"lxml")
        return soup

    def parsePage(self,url=None,page_num=None):
        soup=self.getPage(url)
        itemBlog=soup.find_all('div','blog_list')
        cnArticle=CnblogUtils
        for i,itemSingle in enumerate(itemBlog):
            cnArticle.num=i
            cnArticle.author=itemSingle.find('a','user_name').string
            cnArticle.postTime=itemSingle.find('span','time').string
            cnArticle.articleComment=itemSingle.find('a','comment').string
            cnArticle.articleView=itemSingle.find('a','view').string
            if itemSingle.find('a').has_attr('class'):
                cnArticle.category=itemSingle.find('a','category').string
                cnArticle.title=itemSingle.find('a',attrs={'name':True}).string
            else:
                cnArticle.category="None"
                cnArticle.title=itemSingle.find('a').string
            self.contentAll.add(str(cnArticle.author))
            self.writeFile(page_num,cnArticle.num,cnArticle.author,cnArticle.postTime,cnArticle.articleComment,cnArticle.articleView,cnArticle.category,cnArticle.title)

    def writeFile(self,page_num,num,author,postTime,articleComment,articleView,category,title):
        f=open("a.txt",'a+')
        f.write(str('page_num is {}'.format(page_num))+'\t'+str(num)+'\t'+str(author)+'\t'+str(postTime)+'\t'+str(articleComment)+'\t'+str(articleView)+'\t'+str(category)+'\t'+str(title)+'\n')
        f.close()

def main(thread_num):
    start=time.clock()
    cnblog=CnblogUtils()
    '''
    thread_list = list();
    for i in range(0, thread_num):
        thread_list.append(threading.Thread(target = cnblog.parsePage, args = ('http://blog.csdn.net/?&page={}'.format(i),i+1,)))
    for thread in thread_list:
        thread.start()
    for thread in thread_list:
        thread.join()
    print(cnblog.contentAll)
    '''
    for i in range(0,18):
        cnblog.parsePage('http://blog.csdn.net/?&page={}'.format(i),i+1)
    end=time.clock()
    print('time = {}'.format(end-start))

if __name__ == '__main__':
    main(18)

 

程式運行結果:

page_num is 1    0    foruok    18分鐘前    評論(0)    閱讀(0)    [編程語言]    Windows下從源碼編譯SKIA
page_num is 1    1    u013467442    31分鐘前    評論(0)    閱讀(3)    [編程語言]    Cubieboard學習資源
page_num is 1    2    tuke_tuke    32分鐘前    評論(0)    閱讀(15)    [移動開發]    UI組件之AdapterView及其子類關係,Adapter介面及其實現類關係
page_num is 1    3    xiaominghimi    53分鐘前    評論(0)    閱讀(51)    [移動開發]    【COCOS2D-X 備註篇】ASSETMANAGEREX使用異常解決備註->CHECK_JNI/CC‘JAVA.LANG.NOCLASSDEFFOUNDERROR’
page_num is 1    4    shinian1987    1小時前    評論(0)    閱讀(64)    [綜合]    Python: scikit-image canny 邊緣檢測
page_num is 1    5    u010579068    1小時前    評論(0)    閱讀(90)    None    STL_演算法 for_each 和 transform 比較
page_num is 1    6    u013467442    1小時前    評論(0)    閱讀(94)    [編程語言]    OpenGLES2.0著色器語言glsl
page_num is 1    7    u013467442    1小時前    評論(0)    閱讀(89)    [編程語言]    OpenGl 坐標轉換
page_num is 1    8    AaronGZK    1小時前    評論(0)    閱讀(95)    [編程語言]    bzoj4390【Usaco2015 Dec】Max Flow
page_num is 1    9    AaronGZK    1小時前    評論(0)    閱讀(95)    [編程語言]    bzoj1036【ZJOI2008】樹的統計Count
page_num is 1    10    danhuang2012    1小時前    評論(0)    閱讀(90)    [編程語言]    Node.js如何處理健壯性
page_num is 1    11    EbowTang    1小時前    評論(0)    閱讀(102)    [編程語言]    <LeetCode OJ> 121. Best Time to Buy and Sell Stock
page_num is 1    12    cartzhang    2小時前    評論(0)    閱讀(98)    [架構設計]    給虛幻4添加記憶體跟蹤功能
page_num is 1    13    u013595419    2小時前    評論(0)    閱讀(93)    [綜合]    第2章第1節練習題3 共用棧的基本操作
page_num is 1    14    ghostbear    2小時前    評論(0)    閱讀(115)    [系統運維]    Dynamics CRM 2016 Series: Overview
page_num is 1    15    u014723529    2小時前    評論(0)    閱讀(116)    [編程語言]    將由BeanUtils的getProperty方法返回的Date對象的字元串表示還原為對象
page_num is 1    16    Evankaka    2小時前    評論(1)    閱讀(142)    [架構設計]    Jenkins詳細安裝與構建部署使用教程
page_num is 1    17    Evankaka    2小時前    評論(0)    閱讀(141)    [編程語言]    Ubuntu安裝配置JDK、Tomcat、SVN伺服器

 網速不好時多線程可能報錯

獲取了數據了就可以進行數據分析,或者深度搜索,根據author去獲取author對應的blog等


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • DailyRollingFileAppender是日誌記錄軟體包Log4J中的一個Appender,它能夠按一定的頻度滾動日誌記錄文件。如果您不熟悉Log4J,建議閱讀一下使用Log4j進行日誌記錄。我們可以按下麵的方式配置DailyRollingFileAppender:log4j.rootCat...
  • Nginx是當今最流行的Web伺服器之一。它為世界上7%的web流量提供服務而且正在以驚人的速度增長。它是個讓人驚奇的伺服器,我願意部署它下麵是一個常見安全陷阱和解決方案的列表,它可以輔助來確保你的Nginx部署是安全的。1. 在配置文件中小心使用"if"。它是重寫模塊的一部分,不應該在任何地方使用...
  • 二維數組在記憶體中預設是按照行存儲的,比如一個二維數組{{1,2,3,},{4,5,6}},它在記憶體中存儲的順序就是1、2、3、4、5、6,也就是說,對於這6個數組元素,按照從0到5給它們編號的話,從它們的編號都能推出它們在二維數組中的行號和列號,比如行號即為序號對列數的整數商,列號則為序號對列數取餘...
  • 第一種:DOM。DOM的全稱是Document Object Model,也即文檔對象模型。在應用程式中,基於DOM的XML分析器將一個XML文檔轉換成一個對象模型的集合(通常稱DOM樹),應用程式正是通過 對這個對象模型的操作,來實現對XML文檔數據的操作。通過DOM介面,應用程式可以在任何時候訪...
  • // TMemoryStream 轉化為string字元串function MemoryStreamToString(M: TMemoryStream): AnsiString;begin SetString(Result, PChar(M.Memory), M.Size div SizeOf(C....
  • 1、常見的兩種緩存本地緩存:不需要序列化,速度快,緩存的數量與大小受限於本機記憶體分散式緩存:需要序列化,速度相較於本地緩存較慢,但是理論上緩存的數量與大小無限(因為緩存機器可以不斷擴展)2、本地緩存Google guava cache:當下最好用的本地緩存Ehcache:spring預設集成的一個緩...
  • 常用方式: int a = 12; //註意:通常情況下,這個會設置成一個類變數,比如說Segement中的段鎖與copyOnWriteArrayList中的全局鎖 final ReentrantLock lock = new ReentrantLock()...
  • 最常用的方式: int a = 12; //註意:通常情況下,這個會設置成一個類變數,比如說Segement中的段鎖與copyOnWriteArrayList中的全局鎖 final ReentrantLock lock = new ReentrantLock...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...