Python【8】-分析json文件

来源:http://www.cnblogs.com/janes/archive/2016/05/31/5546673.html
-Advertisement-
Play Games

一、本節用到的基礎知識 1.逐行讀取文件 2.解析json字元串 Python中有一些內置模塊可以非常便捷地將json字元串轉換為Python對象。比如json模塊中的json.relaods()方法可以將json字元串解析為相應的字典。 運行結果: 3.列表生成式 詳見:http://www.cn ...


一、本節用到的基礎知識

1.逐行讀取文件

for line in open('E:\Demo\python\json.txt'):
    print line

 

2.解析json字元串

Python中有一些內置模塊可以非常便捷地將json字元串轉換為Python對象。比如json模塊中的json.relaods()方法可以將json字元串解析為相應的字典。

import json

s='{ "a": "GoogleMaps\/RochesterNY", "c": "US", "nk": 0, "tz": "America\/Denver", "gr": "UT", "g": "mwszkS", "h": "mwszkS", "l": "bitly", "hh": "1.usa.gov", "r": "http:\/\/www.AwareMap.com\/", "u": "http:\/\/www.monroecounty.gov\/etc\/911\/rss.php", "t": 1331926741, "hc": 1308262393, "cy": "Provo", "ll": [ 40.218102, -111.613297 ] }'
o=json.loads(s)
print o

 

運行結果:

{u'a': u'GoogleMaps/RochesterNY', u'c': u'US', u'nk': 0, u'tz': u'America/Denver', u'gr': u'UT', u'g': u'mwszkS', u'h': u'mwszkS', u'cy': u'Provo', u'l': u'bitly', u'hh': u'1.usa.gov', u'r': u'http://www.AwareMap.com/', u'u': u'http://www.monroecounty.gov/etc/911/rss.php', u't': 1331926741, u'hc': 1308262393, u'll': [40.218102, -111.613297]}

 

3.列表生成式

詳見:http://www.cnblogs.com/janes/p/5530979.html

二、將json文件解析為字典列表

要對json文件進行分析,首先我們逐行讀取該文件,並把每行轉換成對應的字典對象,然後組成一個列表。

import json
#讀取文件並解析為字典組成的列表
dicList=[json.loads(line) for line in open('E:\Demo\python\json.txt')]
#列印第一個字典元素
print dicList[0]
#列印第一個元素中的時區
print dicList[0]['tz']

 

運行結果:

{u'a': u'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.78 Safari/535.11', u'c': u'US', u'nk': 1, u'tz': u'America/New_York', u'gr': u'MA', u'g': u'A6qOVH', u'h': u'wfLQtf', u'cy': u'Danvers', u'l': u'orofrog', u'al': u'en-US,en;q=0.8', u'hh': u'1.usa.gov', u'r': u'http://www.facebook.com/l/7AQEFzjSi/1.usa.gov/wfLQtf', u'u': u'http://www.ncbi.nlm.nih.gov/pubmed/22415991', u't': 1331923247, u'hc': 1331822918, u'll': [42.576698, -70.954903]}

America/New_York

三、利用Python標準庫統計json文件中的時區數據

1.首先將所有時區數據放在一個列表中

#獲取所有時區數據
timezones=[item['tz'] for item in dicList if 'tz' in item]
#測試列印前五條
print timezones[0:5]

 

運行結果:

[u'America/New_York', u'America/Denver', u'America/New_York', u'America/Sao_Paulo', u'America/New_York']

2.然後將時區列表轉換為時區計數字典,key為時區名,value為出現次數。

#自定義函數,統計時區出現次數
def countZone(timezones):
    count_zone={}
    for tz in timezones:
        if(tz in count_zone):
            count_zone[tz]+=1
        else:
            count_zone[tz]=1
    return count_zone

#自定義函數,返回top N
def countTop(dicCount,n):
    valueKeyItems=[(value,key) for key,value in dicCount.items()]
    valueKeyItems.sort()
    return valueKeyItems[-n:]
    
#測試並列印出現次數最多的5個時區    
count=countZone(timezones)
print countTop(count,5)

 

運行結果:

[(191, u'America/Denver'), (382, u'America/Los_Angeles'), (400, u'America/Chicago'), (521, u''), (1251, u'America/New_York')]

3.利用defaultdict簡化函數countZone函數

Python標準庫collections對一些數據結構進行了拓展操作,使用起來更加便捷,其中defaultdict可以給字典賦值預設value。

from collections import defaultdict,Counter
def countZone(timezones):
    count_zone=defaultdict(int)
    for tz in timezones:
        count_zone[tz]+=1
    return count_zone

 

4.利用collections.Counter簡化countTop函數

from collections import Counter

def countTop(dicCount,n):
    return Counter(dicCount).most_common(n)

 

5.完整代碼

# -*- coding: utf-8 -*-
import json
#1.讀取文件並轉換為字典列表
#讀取文件並解析為字典組成的列表
dicList=[json.loads(line) for line in open('E:\Demo\python\json.txt')]

#2.統計時區
#獲取所有時區數據
timezones=[item['tz'] for item in dicList if 'tz' in item]

#統計時區出現次數
from collections import defaultdict,Counter
def countZone(timezones):
    count_zone=defaultdict(int)
    for tz in timezones:
        count_zone[tz]+=1
    return count_zone

#返回top N
def countTop(dicCount,n):
    return Counter(dicCount).most_common(n)
    
#測試並列印出現次數最多的5個時區    
count=countZone(timezones)
print countTop(count,5)

 

#運行結果:[(u'America/New_York', 1251), (u'', 521), (u'America/Chicago', 400), (u'America/Los_Angeles', 382), (u'America/Denver', 191)]

四 利用pandas統計json文件中的時區數據

1.運用DataFrame統計時區數據

①DataFrame是pandas中很常用的數據結構,它把數據轉換為一個類似表格的結構。

# -*- coding: utf-8 -*-
import json
from pandas import DataFrame
dicList=[json.loads(line) for line in open('E:\Demo\python\json.txt')]
frame=DataFrame(dicList)
#測試列印時區列表中前5個元素
print frame['tz'][:5]

 

運行結果:

0     America/New_York

1       America/Denver

2     America/New_York

3    America/Sao_Paulo

4     America/New_York

②frame['tz']有value_counts()函數,可以直接返回對應的計數。

#列印出現次數最多的5個時區

print frame['tz'].value_counts()[:5]

 

運行結果:

America/New_York       1251

                                 521

America/Chicago         400

America/Los_Angeles     382

America/Denver          191

③為不存在時區數據或者時區為空字元串的數據補全預設值。

fillna()函數可以補全不存在的欄位;空字元串可以通過布爾型索引的形式進行替換。

tzList=frame['tz'].fillna('Missing')
tzList[tzList =='']='Unknown'
print tzList.value_counts()[:5]

 

運行結果:

America/New_York       1251

Unknown                 521

America/Chicago         400

America/Los_Angeles     382

America/Denver          191

這樣我們就完成了之前用標準Python庫相同的工作,完整代碼如下:

# -*- coding: utf-8 -*-
import json
from pandas import DataFrame
dicList=[json.loads(line) for line in open('E:\Demo\python\json.txt')]
frame=DataFrame(dicList)
#列印出現次數最多的5個時區
print frame['tz'].value_counts()[:5]

#補全時區不存在或者為空的情況
tzList=frame['tz'].fillna('Missing')
tzList[tzList =='']='Unknown'
print tzList.value_counts()[:5]

 

2.利用plot方法繪製垂直條形圖

參考:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.plot.html

tzList.value_counts()[:5].plot(kind='bar',rot=0)

運行:我們可以利用%paste命令將代碼粘貼運行。

命令行:

ipython

%pylab

%paste

 

運行結果:

Image

本文用到的json文件:點此下載

參考:《利用Python進行數據分析》

如需轉載,請標明出處:http://www.cnblogs.com/janes/p/5546673.html


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 先來看一段Java中的迴圈: for (int i = 1; i print(i + ",")) foreach是Range類的一個方法,這方法以一個函數值作為參數。所以要在括弧里提供一段函數代碼接受一個實參。在這個例子里,實參就是i。箭頭“=>”的作用是將左邊的參數列表和右側函數實現分割開來。 ...
  • ORDER BY 關鍵詞用於對記錄集中的數據進行排序。 ORDER BY 關鍵詞 ORDER BY 關鍵詞用於對記錄集中的數據進行排序。 ORDER BY 關鍵詞預設對記錄進行升序排序。 如果你想降序排序,請使用 DESC 關鍵字。 語法 實例 下麵的實例選取 "Persons" 表中存儲的所有數據 ...
  • do-while迴圈和while迴圈非常相似,其區別隻是在於do-while保證必須執行一次,而while在表達式不成立時則可能不做任何操作。 do-while 迴圈只有一種語法: 例子: 該例子也是輸出1到10。 原文地址:http://www.manongjc.com/php/php_while ...
  • 背景:剛剛學到java的String和StringBuffer類,遇到如標題所示的題。 要求:必須要用到String類的toUpperCase方法和toLowerCase方法 思路:用到StringBuffer類的動態添加方法append的方法 代碼如下所示: toUpperCase和toLower ...
  • python中至少包括兩種錯誤:語法錯誤(syntax errors)和異常(exceptions)。 1.語法錯誤 語法錯誤,也被稱作解析錯誤 語法分析器指出錯誤行,並且在檢測到錯誤的位置前面顯示一個小“箭頭”。 錯誤是由箭頭前面的標記引起的(或者至少是這麼檢測的)。錯誤會輸出文件名和行號,所以如 ...
  • Application是所有應用程式類的基類,接下來瞭解一下它的源碼。yii2\base\Application.php。 未完待續。 ...
  • Java讀文件 Java寫文件 ...
  • for($i=0;$i<5;$i++){ $rand .= dechex(rand(1,15)); // 隨機數16進位 1-F 生成5個 } $im = imagecreatetruecolor(100,30); // 驗證碼的大小(畫板) $bg = imagecolorallocate($im ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...