爬蟲

来源:http://www.cnblogs.com/lhly/archive/2017/07/02/7105973.html

-Advertisement-

網站爬蟲，主要是爬博客http://www.cnblogs.com/xxxx下的所有文章內容及標題，保存到data目錄下。具體如下： ...

網站爬蟲，主要是爬博客http://www.cnblogs.com/xxxx下的所有文章內容及標題，保存到data目錄下。具體如下：

import requests
import re

url = 'http://www.cnblogs.com/xxxx'
def get_html(url):
    #打開url並獲取該url的所有html信息
    html_content = requests.get(url).text
    #從html_conten所有的html信息中匹配到所有博客的超鏈接地址
    href_list = re.findall(r'href=\"(.*)\"\>(.*)\<\/a\>', html_content)
    for line in href_list:
        #打開超鏈接地址
        line_html = requests.get(line[0])
        conten = line[1]
        line_content = line_html.text
        line_encoding = line_html.encoding
        print('文章標題:%s，文章編碼:%s'%(conten, line_encoding))
get_html(url)

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

WCF學習——構建第二個WCF應用程式（五）

一、創建數據服務 1.在“解決方案資源管理器”中，使用滑鼠左鍵選中“WcfService”項目，然後在菜單欄上，依次選擇“項目”、“添加新項”。 2.在“添加新項”對話框中，選擇“Web”節點，然後選擇“WCF 服務”項。 3.在“名稱”文本框中，輸入 BookService，然後選擇“添加”按鈕。 ...
Spring+SpringMVC+MyBatis深入學習及搭建(十六)——SpringMVC註解開發（高級篇）

轉載請註明出處:http://www.cnblogs.com/Joanna-Yan/p/7085268.html 前面講到：Spring+SpringMVC+MyBatis深入學習及搭建(十五)——SpringMVC註解開發（基礎篇）本文主要內容：（1）SpringMVC校驗（2）數據回顯（ ...
從ConcurrentHashMap的演進看Java多線程核心技術 Java進階（六）

本文分析了HashMap的實現原理，以及resize可能引起死迴圈和Fast-fail等線程不安全行為。同時結合源碼從數據結構，定址方式，同步方式，計算size等角度分析了JDK 1.7和JDK 1.8中ConcurrentHashMap的實現原理。 ...
PHP基礎入門（五）---PHP面向對象

【面向對象基礎】【封裝和繼承】【PHP關鍵字】【單例】【對象串列化和魔術方法】【抽象類和抽象方法】【介面與多態】 ...
Python之POST登錄測試

不解釋，直接上代碼： ...
P1719 最大加權矩形

為了更好的備戰NOIP2013，電腦組的幾個女孩子LYQ,ZSC,ZHQ認為，我們不光需要機房，我們還需要運動，於是就決定找校長申請一塊電腦組的課餘運動場地，聽說她們都是電腦組的高手，校長沒有馬上答應他們，而是先給她們出了一道數學題，並且告訴她們：你們能獲得的運動場地的面積就是你們能找到的這個最大的 ...
P1034 矩形覆蓋

題目描述在平面上有 n 個點（n <= 50），每個點用一對整數坐標表示。例如：當 n＝4 時，4個點的坐標分另為：p1（1，1），p2（2，2），p3（3，6），P4（0，7），見圖一。這些點可以用 k 個矩形（1<=k<=4）全部覆蓋，矩形的邊平行於坐標軸。當 k=2 時，可用如圖二的兩個矩 ...
Python面向對象編程（一）

1.什麼是面向對象面向對象（oop）是一種抽象的方法來理解這個世界，世間萬物都可以抽象成一個對象，一切事物都是由對象構成的。應用在編程中，是一種開發程式的方法，它將對象作為程式的基本單元。 2.面向對象與面向過程的區別我們之前已經介紹過面向過程了http://www.cnblogs.com/zh ...

一周排行

-Advertisement-

移動開發（一）：使用.NET MAUI開發第一個安卓APP

移動開發（一）：使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說，近來想嘗試開發一款安卓APP，考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP，畢竟是使用Visual Studio開發工具，使用起來也比較的順手，結合微軟官方的教程進行了安卓 ...
wpf ToggleButton選中效果和一個登錄界面

前言 QuestPDF 是一個開源 .NET 庫，用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。項目介紹 QuestPDF 是一個革命性的開源 .NET 庫，它徹底改變了我們生成 PDF 文檔的方 ...
彈幕樹洞項目功能新增篇

項目地址項目後端地址： https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址： ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址： http://tree ...
第27篇 sqlserver2022詳細安裝步驟

話不多說，直接開乾一.下載 1.官方鏈接下載： https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe，運行開始下載SQL server；二. ...
.NET 開源高性能 MQTT 類庫

前言隨著物聯網（IoT）技術的迅猛發展，MQTT（消息隊列遙測傳輸）協議憑藉其輕量級和高效性，已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫，為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。本文將全面介紹 MQTTnet 的核心功能 ...
Serilog文檔翻譯系列（六） - 可用的接收器、增強器、格式化輸出

Serilog支持多種接收器用於日誌存儲，增強器用於添加屬性，LogContext管理動態屬性，支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項，適用於不同需求。 ...
警惕 Visual Studio 屬性求值副作用導致邏輯不符合預期

目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章簡介動態內容網站使用 JavaScript 腳本動態檢索和渲染數據，爬取信息時需要模擬瀏覽器行為，否則獲取到的源碼基本是空的。本文使用的爬取步驟如下：使用 Selenium 獲取渲染後的 HTML 文檔使用 HtmlAgility ...
[使用目前最新版]HybridCLR6.9.0+YooAsset2.2.4實現純C# Unity熱更新方案 (一)

1.前言什麼是熱更新游戲或者軟體更新時，無需重新下載客戶端進行安裝，而是在應用程式啟動的情況下，在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR，Xlua，ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles，Addressable， ...
在 ASP.NET Core Web API 中使用操作篩選器統一處理通用操作

本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺，其實像阿裡雲，騰訊雲上面也可以。首先我們先去互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號註冊完成賬號後，它會送 ...
第28篇如何.net中實現高效可靠數據同步api

通過以下方式可以高效，並保證數據同步的可靠性 1.API設計使用RESTful設計，確保API端點明確，並使用適當的HTTP方法（如POST用於創建，PUT用於更新）。設計清晰的請求和響應模型，以確保客戶端能夠理解預期格式。 2.數據驗證在伺服器端進行嚴格的數據驗證，確保接收到的數據符合預期格 ...

所有分類