Python爬取天氣網歷史天氣數據

来源:http://www.cnblogs.com/haha-point/archive/2017/09/02/7467221.html
-Advertisement-
Play Games

我的第一篇博客,哈哈哈,記錄一下我的Python進階之路!今天寫了一個爬取天氣網歷史數據的小爬蟲。主要使用Python的requests 和BeautifulSoup模塊,核心是利用BeautifulSoup的select語句獲取需要的信息。 ...


我的第一篇博客,哈哈哈,記錄一下我的Python進階之路!

今天寫了一個簡單的爬蟲。

使用python的requests 和BeautifulSoup模塊,Python 2.7.12可在命令行中直接使用pip進行模塊安裝。爬蟲的核心是利用BeautifulSoup的select語句獲取需要的信息。

pip install requests
pip install bs4

以武漢市2017年5~7月的歷史為例爬取天氣網中武漢市的歷史天氣數據。 
7月對應的網址為http://lishi.tianqi.com/wuhan/201707.html

1.requests模塊獲取網頁內容

url='http://lishi.tianqi.com/wuhan/201707.html'
response = requests.get(url)                          
soup = BeautifulSoup(response.text, 'html.parser')    

2.利用.select語句找到網頁中天氣數據所在的div

weather_list = soup.select('div[class="tqtongji2"]') 

天氣數據所在的class

3.找出日期、最高氣溫、最低氣溫、天氣等數據,用li.string獲取li中的信息。

ul_list = weather.select('ul')
for ul in ul_list:
    li_list= ul.select('li')
    for li in li_list:
        li.string.encode('utf-8')  #具體的天氣信息

詳細天氣信息獲取

具體代碼實現如下:

#encoding:utf-8                                                                      
import requests                                                                      
from bs4 import BeautifulSoup                                                        

urls = ["http://lishi.tianqi.com/wuhan/201707.html",                                 
        "http://lishi.tianqi.com/wuhan/201706.html",                                 
        "http://lishi.tianqi.com/wuhan/201705.html"]                                 
file = open('wuhan_weather.csv','w')                                                 
for url in urls:                                                                     
    response = requests.get(url)                                                     
    soup = BeautifulSoup(response.text, 'html.parser')                               
    weather_list = soup.select('div[class="tqtongji2"]')                             

    for weather in weather_list:                                                     
        weather_date = weather.select('a')[0].string.encode('utf-8')                 
        ul_list = weather.select('ul')                                               
        i=0                                                                          
        for ul in ul_list:                                                           
            li_list= ul.select('li')                                                 
            str=""                                                                   
            for li in li_list:                                                       
                str += li.string.encode('utf-8')+','                                 
            if i!=0:                                                                 
                file.write(str+'\n')                                                 
            i+=1                                                                     
file.close()                                                                         

最後的結果: 
武漢5~7月天氣

相比正則表達式,使用select語句爬取數據就是這麼簡單啦! 
正則表達式還不是很理解,等理清楚,再來寫總結。

從csdn搬過來,體驗一下http://blog.csdn.net/haha_point/article/details/77197230


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • unit Unit1; interface uses Winapi.Windows, Winapi.Messages, System.SysUtils, System.Variants, System.Classes, Vcl.Graphics, Vcl.Controls, Vcl.Forms, V... ...
  • 今天是畢業入職的第一個周末,一直對多線程併發方面的知識比較感興趣,因為目前我手裡的項目並沒有涉及到併發方面的知識,所以怕以後遺忘,也便於以後複習和使用,所以總結了一下Lock裡面的一些類的方法。具體的代碼實現例子我在這裡就不做說明解釋了,這些方法都比較容易理解和使用,如果實在是忘記的話可以在隨時查閱 ...
  • //RadomAcess的介面for..i的遍歷比for..loop的快,@more see comments for interface RandomAcess import java.util.ArrayList; import java.util.Iterator; import java.u ...
  • 三天不寫代碼就手生! 把測試代碼記錄下來。 註意事項: 1. 三個方法必須一塊使用,不能只寫 System.MonitorWait(Form1, INFINITE); System.MonitorEnter(Form1); //必須 Log('Thread1 Enter'); System.Moni ...
  • 進程:qq要以一個整體的形式暴露給操作系統管理,裡面包含對各種資源的調用,記憶體的對各種資源管理的集合,就可稱之為進程。 線程:是操作系統最小的調度單位,是一串指令的集合。 進程:要操作CPU,必須要先創建一個線程,進程不能單獨執行,進程執行是調動線程,至少要有一個線程; 進程是資源的集合,線程是最小 ...
  • 在Django模板中可能會出現訪問多個URL指向同一函數,為減少代碼可以利用正則表達式實現 (?P<nid>\d+)表示此部分的名稱為nid,對應removeuserinfo(request,nid)中的nid參數 此時 模板.html 中 a標簽中的href的值可以寫為{% url "reinfo ...
  • 字元串內置方法的使用 設置字元串:st=‘hello kitty’ 1、統計元素個數 Print(st.count(‘l’)) #結果為2 2、首字母大寫 Print(st.capitalize()) #結果為Hello kitty 3、居中 Print(st.center(20,’#’)) #結果 ...
  • 重載(Overloading) (1) 方法重載是讓類以統一的方式處理不同類型數據的一種手段。 多個同名方法同時存在,具有不同的參數個數/類型。 重載Overloading是一個類中多態性的一種表現。 (2) Java的方法重載,就是在類中可以創建多個方法,它們具有相同的名字,但具有不同的參數和不同 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...