數據挖掘_通過字典列表批量抓取網頁數據

来源:https://www.cnblogs.com/susmote/archive/2018/04/19/8879604.html
-Advertisement-
Play Games

在進行網頁數據抓取時我們要先安裝一個模塊 requests 通過終端安裝如下圖 因為我之前安裝過了,所以不會顯示安裝進度條,安裝也非常簡單,如果你配置好環境變數的話,你只需要執行以下命令 如果提示要升級,就按下麵升級pip 安裝完模塊後我們正式開始進行數據爬取 先說一下requests的用法,導入這 ...


在進行網頁數據抓取時我們要先安裝一個模塊 

requests

通過終端安裝如下圖

因為我之前安裝過了,所以不會顯示安裝進度條,安裝也非常簡單,如果你配置好環境變數的話,你只需要執行以下命令

pip install requests

 如果提示要升級,就按下麵升級pip

pip install --upgrade pip

 

 

安裝完模塊後我們正式開始進行數據爬取

先說一下requests的用法,導入這個模塊後,你只需要調用一下get方法,就能獲取網頁的內容了

例如,爬取我的博客首頁,這個單網頁

In [1]: import requests

In [2]: resp = requests.get("http://www.susmote.com")

In [3]: resp.encoding = "utf-8"

In [4]: type(resp.text)
Out[4]: str

In [5]: content = resp.text[0:100]

In [6]: print(content)
<!DOCTYPE html>
<html lang="zh-Hans">
<head>
	<meta http-equiv="Content-Type" content="text/html; ch

 首先導入,然後調用get方法,裡面接你要爬取的網頁

註意:必須要加http:頭,不然會報錯

然後在第三步,我們更改了預設編碼,這個取決於你要爬取網頁的編碼格式,如果不更改,極大可能會出行亂碼,或是一些沒有看過的字元

在第五步,我們把爬取網頁內容的前50個字元賦值給了content,以便之後查看,因為網頁內容太多,不能一次全部列印出來,所以我們決定切片輸出一部分內容

最後一步,我們列印出剛纔保存的一部分內容

 

 

前面只是提前熟悉一下爬取數據的步驟,接下來我們通過列表字典批量獲取數據,然後把它保存為一個文件

首先定義一個字典,存儲我們要抓取頁面的網址

urls_dict = {
    '特克斯博客': 'http://www.susmote.com/',
    '百度': 'http://www.baidu.com',
    'xyz': 'www.susmote.com',
    '特克斯博客歌單區1': 'https://www.susmote.com/?cate=13',
    '特克斯博客歌單區2': 'https://www.susmote.com/?cate=13'
}

 

然後我們在定義一個列表,也是存儲抓取頁面的網址

urls_lst = [
    ('特克斯博客', 'http://www.susmote.com/'),
    ('百度', 'http://www.baidu.com'),
    ('xyz', 'www.susmote.com'),
    ('特克斯博客歌單區1', 'https://www.susmote.com/?cate=13'),
    ('特克斯博客歌單區2', 'https://www.susmote.com/?cate=13')
]

 

 

然後我們先利用字典來抓取

代碼如下:

# 利用字典抓取
crawled_urls_for_dict = set()
for ind, name in enumerate(urls_dict.keys()):
    name_url = urls_dict[name]
    if name_url in crawled_urls_for_dict:
        print(ind, name, "已經抓取過了.")
    else:
        try:
            resp = requests.get(name_url)
        except Exception as e:
            print(ind, name, ":", str(e)[0:50])
            continue
        resp.encoding = "utf8"
        content = resp.text
        crawled_urls_for_dict.add(name_url)
        with open("bydict_" + name + ".html", 'w', encoding='utf8') as f:
            f.write(content)
            print("抓取完成 : {} {}, 內容長度為{}".format(ind, name, len(content)))

 首先定義一個空集合,以保存我們抓取完數據的網址,以避免重覆抓取

後面我們通過for迴圈和枚舉,遍歷每一個字典的鍵和值,把每一抓取的網址存進開始定義的集合crawled_urls_for_dict

然後我們判斷要抓取的網址,是否已經保存在集合中,如果存在,就輸出已經抓取過了

如果沒有,再進行後面的操作,在這裡我們為了防止程式出錯,影響程式的整體運行,我們在這裡使用了try except 語句來列印出錯的異常,這樣能保證程式能完整運行

然後無非和我之前說的一樣,改編碼格式,暫時保存內容

只是最後我們通過創建一個文件來保存爬取下來的網頁文件,這個我就不詳細解釋了,無非就是加了個尾碼

 

 

在後面我們列印抓取的網頁地址

for u in crawled_urls_for_dict:
    print(u)

 

 

 

然後我們利用列表來抓取數據

代碼如下

# 利用列表抓取
crawled_urls_for_list = set()
for ind, tup in enumerate(urls_lst):
    name = tup[0]
    name_url = tup[1]
    if name_url in crawled_urls_for_list:
        print(ind, name, "已經抓取過了.")
    else:
        try:
            resp = requests.get(name_url)
        except Exception as e:
            print(ind, name, ":", str(e)[0:50])
            continue
        resp.encoding = "utf8"
        content = resp.text
        crawled_urls_for_list.add(name_url)
        with open('bylist_' + name + ".html", "w", encoding='utf8') as f:
            f.write(content)
            print("抓取完成:{} {}, 內容長度為{}".format(ind, name, len(content)))

 原理上跟前面的字典一樣,我就不做過多解釋了

只是要註意這是一個嵌套的列表,遍歷的時候要註意一下

 

最後也是一樣

for u in crawled_urls_for_list:
    print(u) 

 列印抓取過的數據

 

運行結果如下圖

susmotedeMacBook-Air:FirstDatamining susmote$ python main.py
抓取完成 : 0 特克斯博客, 內容長度為26793
抓取完成 : 1 百度, 內容長度為2287
2 xyz : Invalid URL 'www.susmote.com': No schema supplied.
抓取完成 : 3 特克斯博客歌單區1, 內容長度為21728
4 特克斯博客歌單區2 已經抓取過了.
http://www.susmote.com/
http://www.baidu.com
https://www.susmote.com/?cate=13
------------------------------------------------------------
抓取完成:0 特克斯博客, 內容長度為26793
抓取完成:1 百度, 內容長度為2287
2 xyz : Invalid URL 'www.susmote.com': No schema supplied.
抓取完成:3 特克斯博客歌單區1, 內容長度為21728
4 特克斯博客歌單區2 已經抓取過了.
http://www.susmote.com/
http://www.baidu.com
https://www.susmote.com/?cate=13

 文件目錄變化如下 

用瀏覽器打開如下圖

特克斯博客 www.susmote.com 

 

 

 

百度網站    www.baidu..com

 

 到這裡,簡單的數據抓取就講完了

歡迎訪問我的官網

www.susmote.com


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • layout: post title: 2016 08 03 信息系統實踐手記8 兩模塊通訊的一些事 key: 20160803 tags: 對接 卡口 黑名單 佈防 撤防 訂閱 取消 設備 列表 模型 modify_date: 2016 08 03 信息系統實踐手記8 兩模塊通訊的一些事 說明: ...
  • layout: post title: 2016 05 20 信息系統實踐手記7 對接卡口平臺細節 key: 20160520 tags: 對接 卡口 黑名單 佈防 撤防 訂閱 取消 設備 列表 模型 modify_date: 2016 05 20 信息系統實踐手記7 對接卡口平臺細節 說明: 本文 ...
  • 71,談談你對Struts的理解。 1. struts是一個按MVC模式設計的Web層框架,其實它就是一個Servlet,這個Servlet名為ActionServlet,或是ActionServlet的子類。我們可以在web.xml文件中將符合某種特征的所有請求交給這個Servlet處理,這個Se ...
  • 最近區塊鏈技術突然爆火,身邊做技術的朋友茶餘飯後不談點區塊鏈什麼的都被認為是跟不上時代了,為啥會這樣了? 這其實跟比特幣價格去年的突飛猛進是分不開的,比特幣價格從去年初不到一千美金到今年初最高接近兩萬美金,賺錢效應已經足夠博取大家眼球了,吃瓜群眾對比特幣價格一年上漲20倍早已目瞪狗呆,個個備足錢袋, ...
  • 1.安裝Java環境 安裝了Java環境直接下一步,沒有安裝的話:http://www.cnblogs.com/i-tao/p/8587279.html 2.安裝Eclipse開發工具 安裝了Eclipse直接下一步,沒有安裝直接去官網下載Eclipse:https://www.eclipse.or ...
  • 原文地址:http://hadihariri.com/2014/06/24/no-tabs-in-intellij-idea/ I often come across people complaining about some odd behaviour when it comes to edito ...
  • @ResponseBody 在返回的數據不是html標簽的頁面,而是其他某種格式的數據時(如json、xml等)使用; 不在springMvc中配置json的處理的話,我們通常會在Controller層中獲取到數據之後進行類型轉化,將數據轉成json字元串,比如調用fastjson進行轉化,如下 這 ...
  • 手把手教你寫網路爬蟲(4) 作者:拓海 摘要:從零開始寫爬蟲,初學者的速成指南! 封面: 上期我們理性的分析了為什麼要學習Scrapy,理由只有一個,那就是免費,一分錢都不用花! 咦?怎麼有人扔西紅柿?好吧,我承認電視看多了。不過今天是沒得看了,為了趕稿,又是一個不眠夜。。。言歸正傳,我們將在這一期 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...