利用python進行數據分析之數據載入存儲與文件格式

来源:http://www.cnblogs.com/splended/archive/2016/02/15/5184442.html
-Advertisement-
Play Games

在開始學習之前,我們需要安裝pandas模塊。由於我安裝的python的版本是2.7,故我們在https://pypi.python.org/pypi/pandas/0.16.2/#downloads 此網站上下載的0.16.2版本,下載後解壓縮利用dos命令打開對應的文件下,並運行 python


  在開始學習之前,我們需要安裝pandas模塊。由於我安裝的python的版本是2.7,故我們在https://pypi.python.org/pypi/pandas/0.16.2/#downloads 此網站上下載的0.16.2版本,下載後解壓縮利用dos命令打開對應的文件下,並運行 python setup.py install安裝,可能會出現報錯:error: Microsoft Visual C++ 9.0 is required (Unable to find vcvarsall.bat). Get it from http://aka.ms/vcpython27,此刻轉到http://www.microsoft.com/en-us/download/confirmation.aspx?id=44266,會自動下載Microsoft Visual C++ Compiler for Python 2.7,下載後安裝。然後再運行python setup.py install,就可以正常安裝了,安裝過程在30s左右即可完成。安裝成功後可在idle視窗中

import pandas

查看是否引用成功,成功後就可以開始下一步學習。

  輸入輸出數據通常分為幾個大類,讀取文本文件和其他更高效的磁碟存儲格式,載入資料庫中數據,也可以利用web的API操作網路數據資源。

一、讀取文本格式數據

  pandas提供一些將表格數據讀取為dataframe對象的函數。

read_csv 從文件,url,文件型對象中載入帶分隔符的數據,預設分隔符為逗號。
read_table 從文件,url,文件型對象中載入帶分隔符的數據,預設分隔符為製表符('\t')。
read_fwf 讀取定寬格式的數據,無分隔符
read_clipboard 讀取剪貼板中數據

 

 

  

  

 

 

read_csv會為數據分配預設的列名,也可以指定數據的列名如:pd.read_csv('ch06/ex2/csv',names=['a','b','c','d','message'])

假設你希望將message列作為dataframe的索引,可以通過index_col參數指定message:

names=['a','b','c','d','message']

pd.read_csv('ch06/ex2/csv',names=names,index_col='message')

 

 將數據寫出到文本格式

  1、利用data_frame的to_csv方法,可以將數據寫到一個以逗號分隔的文件中,也可用sep參數指定分隔符,如 data.to_csv()

  2、缺失值寫入輸出時會被表示為空字元串,可使用na_rep表示為別的標記值。

手工處理分隔符格式

對於任何單字元分隔符文件,可以直接使用python內置的csv模塊,將任意打開的文件或文件型的對象傳給csv.reader:

import csv
f=open('ch06/ex7.csv')
reader=csv.reader(f)

對這個reader迭代將會為每行產生一個列表,為了使數據合乎需求,需要進行一些手工整理:

lines=list(csv.reader(open('ch06\ex7.csv')))
header,values=lines[0],lines[1:]
data_dict={h:v for h,v in zip(header,zip(*values))}

csv的文件的形式有很多,只需定義csv.dialect的一個子類即可定義出新格式:

class my_dialect(csv.Dialect):
    lineterminator='\n'
    delimiter=';'
    quotechar='"'
reader=csv.reader(f,dialect=my_dialect)

二、JSON數據

JSON數據已經成為通過http請求在wed瀏覽器和其他應用程式之間發送數據的標準格式之一,它是一種比表格型文本格式更靈活的數據格式。

JSON非常接近於有效的python代碼,基本類型都有對象,數組,字元串,數值,布爾型以及null。通過json.loads即可將JSON字元串轉換為python形式。

import json
result=json.loads(obj)

json.dump則將python對象轉換為JSON格式

三、XML和HML:WEB信息收集

lxml可以高效可靠的解析大文件,lxml有多個編程介面,首先我們用lxml.html處理HTML,然後再用lxml.objectify做一些XML處理。

(待續)

四、二進位數據格式

實現二進位數據格式存儲最簡單的方法之一是使用python內置的pickle序列化,pandas對象都有一個用於將數據以pickle形式保存到磁碟上的save方法,然後可用pickle函數pandas.load將數據讀回python:

frame=pd.read_csv('ch06/ec1.csv')
frame.save('ch06/frame_pickle')
frame.load('ch06/frame_pickle')

使用HDF5格式

HDF5中指的是層次型數據格式,每個HDF5文件都含有一個文件系統式的節點結構,它使你可以儲存多個數據集並支持元數據。HDF5支持多種壓縮器的即時壓縮。

python中有兩個介面處理HDF5,pytable和h5py。

讀取excel文件

pandas的excelfile類支持讀取存儲excel中的表格型數據,由於excelfile用到了xlrd和openpyxl包,所以得先安裝它們(https://pypi.python.org/pypi/xlrd),通過傳入一個xls或xslx文件的路徑即可創建一個excelfile實例,存放在某個工作表中的數據可以通過parse讀取到dataframe中。

xls_file=pd.ExcelFile('data.xls')
table=xls_file.parse('Sheet1')

 五、使用HTML和WEB API

許多網站都有一些通過JSON或其他格式提供數據的公用API,通過python訪問這些API簡單推薦的方法是requests包,如下:

網頁信息讀取後可進行更高級一步的處理。

import requests
url='http://www.baidu.com'
resp=requests.get(url)
resp
import json
data=json.loads(resp.text)

六、使用資料庫

具體應用中,數據很少取自文本數據,更多來源與資料庫(包括關係型資料庫與非關係型資料庫)


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 原文地址:http://blog.sina.com.cn/s/blog_604fb7ae0100x2s7.html 中小企業辦公自動化系統都需要有與微軟辦公軟體連接的功能,如把數據導入到電子錶格、Word等功能。C#.NET在Office方面提供了強大的功能,只要導入 Microsoft.Offic
  • (1/2)類型 普通函數指針不能被賦值為成員函數的地址。 int (*pFunc)(); pFunc是一個函數指針,而int (*)()是類型。 成員函數地址要賦值給成員函數指針。 class Base { public: int func() { return 1; } }; int main()
  • 摘自:http://cmsblogs.com/?p=52 面向對象編程有三大特性:封裝、繼承、多態。 封裝隱藏了類的內部實現機制,可以在不影響使用的情況下改變類的內部結構,同時也保護了數據。對外界而已它的內部細節是隱藏的,暴露給外界的只是它的訪問方法。 繼承是為了重用父類代碼。兩個類若存在IS-A的
  • 摘自:http://cmsblogs.com/?p=48 在講解之前我們先看一個例子,該例子是前篇博文(java提高篇—–理解java的三大特性之封裝)的。 從這裡我們可以看出,Wife、Husband兩個類除了各自的husband、wife外其餘部分全部相同,作為一個想最大限度實現復用代碼的我們是
  • 摘自:http://cmsblogs.com/?p=41 封裝從字面上來理解就是包裝的意思,專業點就是信息隱藏,是指利用抽象數據類型將數據和基於數據的操作封裝在一起,使其構成一個不可分割的獨立實體,數據被保護在抽象數據類型的內部,儘可能地隱藏內部的細節,只保留一些對外介面使之與外部發生聯繫。系統的其
  • package cn.aust.zyw.demo; /** * Created by zyw on 2016/2/9. * insert-sort */ public class Insertion { public static void sort(int [] a){ int N=a.lengt
  • 為什麼代碼中常有配置文件這個模塊呢.首先認為是全局常量,重要的是支持熱更新. 配置在上層語言中應用的很廣,這裡帶大家手寫一個簡單可用的配置文件庫. 配置的規則 等同於php 的 變數 $heoo = "Hello World!" 這樣.
  • def w1(func): def inner(): # 驗證1 # 驗證2 # 驗證3 return func() return inner @w1 def f1(): print 'f1' 當寫完這段代碼後(函數未被執行、未被執行、未被執行),python解釋器就會從上到下解釋代碼,步驟如下:
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...