數據挖掘_通過字典列表批量抓取網頁數據

-Advertisement-

在進行網頁數據抓取時我們要先安裝一個模塊 requests 通過終端安裝如下圖因為我之前安裝過了，所以不會顯示安裝進度條，安裝也非常簡單，如果你配置好環境變數的話，你只需要執行以下命令如果提示要升級，就按下麵升級pip 安裝完模塊後我們正式開始進行數據爬取先說一下requests的用法，導入這 ...

在進行網頁數據抓取時我們要先安裝一個模塊

requests

通過終端安裝如下圖

因為我之前安裝過了，所以不會顯示安裝進度條，安裝也非常簡單，如果你配置好環境變數的話，你只需要執行以下命令

pip install requests

如果提示要升級，就按下麵升級pip

pip install --upgrade pip

安裝完模塊後我們正式開始進行數據爬取

先說一下requests的用法，導入這個模塊後，你只需要調用一下get方法，就能獲取網頁的內容了

例如，爬取我的博客首頁，這個單網頁

In [1]: import requests

In [2]: resp = requests.get("http://www.susmote.com")

In [3]: resp.encoding = "utf-8"

In [4]: type(resp.text)
Out[4]: str

In [5]: content = resp.text[0:100]

In [6]: print(content)
<!DOCTYPE html>
<html lang="zh-Hans">
<head>
	<meta http-equiv="Content-Type" content="text/html; ch

首先導入，然後調用get方法，裡面接你要爬取的網頁

註意：必須要加http：頭，不然會報錯

然後在第三步，我們更改了預設編碼，這個取決於你要爬取網頁的編碼格式，如果不更改，極大可能會出行亂碼，或是一些沒有看過的字元

在第五步，我們把爬取網頁內容的前50個字元賦值給了content，以便之後查看，因為網頁內容太多，不能一次全部列印出來，所以我們決定切片輸出一部分內容

最後一步，我們列印出剛纔保存的一部分內容

前面只是提前熟悉一下爬取數據的步驟，接下來我們通過列表字典批量獲取數據，然後把它保存為一個文件

首先定義一個字典，存儲我們要抓取頁面的網址

urls_dict = {
    '特克斯博客': 'http://www.susmote.com/',
    '百度': 'http://www.baidu.com',
    'xyz': 'www.susmote.com',
    '特克斯博客歌單區1': 'https://www.susmote.com/?cate=13',
    '特克斯博客歌單區2': 'https://www.susmote.com/?cate=13'
}

然後我們在定義一個列表，也是存儲抓取頁面的網址

urls_lst = [
    ('特克斯博客', 'http://www.susmote.com/'),
    ('百度', 'http://www.baidu.com'),
    ('xyz', 'www.susmote.com'),
    ('特克斯博客歌單區1', 'https://www.susmote.com/?cate=13'),
    ('特克斯博客歌單區2', 'https://www.susmote.com/?cate=13')
]

然後我們先利用字典來抓取

代碼如下：

# 利用字典抓取
crawled_urls_for_dict = set()
for ind, name in enumerate(urls_dict.keys()):
    name_url = urls_dict[name]
    if name_url in crawled_urls_for_dict:
        print(ind, name, "已經抓取過了.")
    else:
        try:
            resp = requests.get(name_url)
        except Exception as e:
            print(ind, name, ":", str(e)[0:50])
            continue
        resp.encoding = "utf8"
        content = resp.text
        crawled_urls_for_dict.add(name_url)
        with open("bydict_" + name + ".html", 'w', encoding='utf8') as f:
            f.write(content)
            print("抓取完成 : {} {}, 內容長度為{}".format(ind, name, len(content)))

首先定義一個空集合，以保存我們抓取完數據的網址，以避免重覆抓取

後面我們通過for迴圈和枚舉，遍歷每一個字典的鍵和值，把每一抓取的網址存進開始定義的集合crawled_urls_for_dict

然後我們判斷要抓取的網址，是否已經保存在集合中，如果存在，就輸出已經抓取過了

如果沒有，再進行後面的操作，在這裡我們為了防止程式出錯，影響程式的整體運行，我們在這裡使用了try except 語句來列印出錯的異常，這樣能保證程式能完整運行

然後無非和我之前說的一樣，改編碼格式，暫時保存內容

只是最後我們通過創建一個文件來保存爬取下來的網頁文件，這個我就不詳細解釋了，無非就是加了個尾碼

在後面我們列印抓取的網頁地址

for u in crawled_urls_for_dict:
    print(u)

然後我們利用列表來抓取數據

代碼如下

# 利用列表抓取
crawled_urls_for_list = set()
for ind, tup in enumerate(urls_lst):
    name = tup[0]
    name_url = tup[1]
    if name_url in crawled_urls_for_list:
        print(ind, name, "已經抓取過了.")
    else:
        try:
            resp = requests.get(name_url)
        except Exception as e:
            print(ind, name, ":", str(e)[0:50])
            continue
        resp.encoding = "utf8"
        content = resp.text
        crawled_urls_for_list.add(name_url)
        with open('bylist_' + name + ".html", "w", encoding='utf8') as f:
            f.write(content)
            print("抓取完成:{} {}, 內容長度為{}".format(ind, name, len(content)))

原理上跟前面的字典一樣，我就不做過多解釋了

只是要註意這是一個嵌套的列表，遍歷的時候要註意一下

最後也是一樣

for u in crawled_urls_for_list:
    print(u)

列印抓取過的數據

運行結果如下圖

susmotedeMacBook-Air:FirstDatamining susmote$ python main.py
抓取完成 : 0 特克斯博客, 內容長度為26793
抓取完成 : 1 百度, 內容長度為2287
2 xyz : Invalid URL 'www.susmote.com': No schema supplied.
抓取完成 : 3 特克斯博客歌單區1, 內容長度為21728
4 特克斯博客歌單區2 已經抓取過了.
http://www.susmote.com/
http://www.baidu.com
https://www.susmote.com/?cate=13
------------------------------------------------------------
抓取完成:0 特克斯博客, 內容長度為26793
抓取完成:1 百度, 內容長度為2287
2 xyz : Invalid URL 'www.susmote.com': No schema supplied.
抓取完成:3 特克斯博客歌單區1, 內容長度為21728
4 特克斯博客歌單區2 已經抓取過了.
http://www.susmote.com/
http://www.baidu.com
https://www.susmote.com/?cate=13

文件目錄變化如下

用瀏覽器打開如下圖

特克斯博客 www.susmote.com

百度網站 www.baidu..com

到這裡，簡單的數據抓取就講完了

歡迎訪問我的官網

www.susmote.com

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

2016-08-03-信息系統實踐手記8-兩模塊通訊的一些事

layout: post title: 2016 08 03 信息系統實踐手記8 兩模塊通訊的一些事 key: 20160803 tags: 對接卡口黑名單佈防撤防訂閱取消設備列表模型 modify_date: 2016 08 03 信息系統實踐手記8 兩模塊通訊的一些事說明： ...
2016-05-20-信息系統實踐手記7-對接卡口平臺細節

layout: post title: 2016 05 20 信息系統實踐手記7 對接卡口平臺細節 key: 20160520 tags: 對接卡口黑名單佈防撤防訂閱取消設備列表模型 modify_date: 2016 05 20 信息系統實踐手記7 對接卡口平臺細節說明：本文 ...
Java面試題—初級（6）

71，談談你對Struts的理解。 1. struts是一個按MVC模式設計的Web層框架，其實它就是一個Servlet，這個Servlet名為ActionServlet，或是ActionServlet的子類。我們可以在web.xml文件中將符合某種特征的所有請求交給這個Servlet處理，這個Se ...
驚奇！用Java也能實現比特幣系統

最近區塊鏈技術突然爆火，身邊做技術的朋友茶餘飯後不談點區塊鏈什麼的都被認為是跟不上時代了，為啥會這樣了？這其實跟比特幣價格去年的突飛猛進是分不開的，比特幣價格從去年初不到一千美金到今年初最高接近兩萬美金，賺錢效應已經足夠博取大家眼球了，吃瓜群眾對比特幣價格一年上漲20倍早已目瞪狗呆，個個備足錢袋， ...
創建SpringBoot項目

1.安裝Java環境安裝了Java環境直接下一步，沒有安裝的話：http://www.cnblogs.com/i-tao/p/8587279.html 2.安裝Eclipse開發工具安裝了Eclipse直接下一步，沒有安裝直接去官網下載Eclipse：https://www.eclipse.or ...
[轉載][IntelliJ IDEA]No Tabs in IntelliJ IDEA

原文地址：http://hadihariri.com/2014/06/24/no-tabs-in-intellij-idea/ I often come across people complaining about some odd behaviour when it comes to edito ...
springMvc配置xml使ResponseBody返回Json

@ResponseBody 在返回的數據不是html標簽的頁面，而是其他某種格式的數據時（如json、xml等）使用；不在springMvc中配置json的處理的話，我們通常會在Controller層中獲取到數據之後進行類型轉化，將數據轉成json字元串，比如調用fastjson進行轉化，如下這 ...
[原創]手把手教你寫網路爬蟲（4）：Scrapy入門

手把手教你寫網路爬蟲（4）作者：拓海摘要：從零開始寫爬蟲，初學者的速成指南！封面：上期我們理性的分析了為什麼要學習Scrapy，理由只有一個，那就是免費，一分錢都不用花！咦？怎麼有人扔西紅柿？好吧，我承認電視看多了。不過今天是沒得看了，為了趕稿，又是一個不眠夜。。。言歸正傳，我們將在這一期 ...