Python數據分析入門與實踐 學習 資源✌✌

来源:https://www.cnblogs.com/itye/archive/2019/10/12/11664515.html
-Advertisement-
Play Games

pandas是一個Python語言的軟體包,在我們使用Python語言進行機器學習編程的時候,這是一個非常常用的基礎編程庫。本文是對它的一個入門教程。 pandas提供了快速,靈活和富有表現力的數據結構,目的是使“關係”或“標記”數據的工作既簡單又直觀。它旨在成為在Python中進行實際數據分析的高 ...


pandas是一個Python語言的軟體包,在我們使用Python語言進行機器學習編程的時候,這是一個非常常用的基礎編程庫。本文是對它的一個入門教程。

pandas提供了快速,靈活和富有表現力的數據結構,目的是使“關係”或“標記”數據的工作既簡單又直觀。它旨在成為在Python中進行實際數據分析的高級構建塊。

入門介紹

pandas適合於許多不同類型的數據,包括:

  • 具有異構類型列的表格數據,例如SQL表格或Excel數據
  • 有序和無序(不一定是固定頻率)時間序列數據。
  • 具有行列標簽的任意矩陣數據(均勻類型或不同類型)
  • 任何其他形式的觀測/統計數據集。

由於這是一個Python語言的軟體包,因此需要你的機器上首先需要具備Python語言的環境。關於這一點,請自行在網路上搜索獲取方法。

關於如何獲取pandas請參閱官網上的說明:pandas Installation

通常情況下,我們可以通過pip來執行安裝:

sudo pip3 install pandas

或者通過conda 來安裝pandas:

conda install pandas

目前(2018年2月)pandas的最新版本是v0.22.0(發佈時間:2017年12月29日)。

我已經將本文的源碼和測試數據放到Github上: pandas_tutorial ,讀者可以前往獲取。

另外,pandas常常和NumPy一起使用,本文中的源碼中也會用到NumPy

建議讀者先對NumPy有一定的熟悉再來學習pandas,我之前也寫過一個NumPy的基礎教程,參見這裡:Python 機器學習庫 NumPy 教程

核心數據結構

pandas最核心的就是SeriesDataFrame兩個數據結構。

這兩種類型的數據結構對比如下:

名稱維度說明
Series 1維 帶有標簽的同構類型數組
DataFrame 2維 表格結構,帶有標簽,大小可變,且可以包含異構的數據列

DataFrame可以看做是Series的容器,即:一個DataFrame中可以包含若幹個Series。

註:在0.20.0版本之前,還有一個三維的數據結構,名稱為Panel。這也是pandas庫取名的原因:panel

-data

-s。但這種數據結構由於很少被使用到,因此已經被廢棄了。

Series

由於Series是一維結構的數據,我們可以直接通過數組來創建這種數據,像這樣:

# data_structure.py

import pandas as pd
import numpy as np

series1 = pd.Series([1, 2, 3, 4])
print("series1:\n{}\n".format(series1))

這段代碼輸出如下:

series1:
0    1
1    2
2    3
3    4
dtype: int64

這段輸出說明如下:

  • 輸出的最後一行是Series中數據的類型,這裡的數據都是int64類型的。
  • 數據在第二列輸出,第一列是數據的索引,在pandas中稱之為Index

我們可以分別列印出Series中的數據和索引:

# data_structure.py

print("series1.values: {}\n".format(series1.values))

print("series1.index: {}\n".format(series1.index))

這兩行代碼輸出如下:

series1.values: [1 2 3 4]

series1.index: RangeIndex(start=0, stop=4, step=1)

如果不指定(像上面這樣),索引是[1, N-1]的形式。不過我們也可以在創建Series的時候指定索引。索引未必一定需要是整數,可以是任何類型的數據,例如字元串。例如我們以七個字母來映射七個音符。索引的目的是可以通過它來獲取對應的數據,例如下麵這樣:

# data_structure.py

series2 = pd.Series([1, 2, 3, 4, 5, 6, 7],
    index=["C", "D", "E", "F", "G", "A", "B"])
print("series2:\n{}\n".format(series2))
print("E is {}\n".format(series2["E"]))

這段代碼輸出如下:

series2:
C    1
D    2
E    3
F    4
G    5
A    6
B    7
dtype: int64

E is 3

DataFrame

下麵我們來看一下DataFrame的創建。我們可以通過NumPy的介面來創建一個4x4的矩陣,以此來創建一個DataFrame,像這樣:

# data_structure.py

df1 = pd.DataFrame(np.arange(16).reshape(4,4))
print("df1:\n{}\n".format(df1))

這段代碼輸出如下:

df1:
    0   1   2   3
0   0   1   2   3
1   4   5   6   7
2   8   9  10  11
3  12  13  14  15

從這個輸出我們可以看到,預設的索引和列名都是[0, N-1]的形式。

我們可以在創建DataFrame的時候指定列名和索引,像這樣:

# data_structure.py

df2 = pd.DataFrame(np.arange(16).reshape(4,4),
    columns=["column1", "column2", "column3", "column4"],
    index=["a", "b", "c", "d"])
print("df2:\n{}\n".format(df2))

這段代碼輸出如下:

df2:
   column1  column2  column3  column4
a        0        1        2        3
b        4        5        6        7
c        8        9       10       11
d       12       13       14       15

我們也可以直接指定列數據來創建DataFrame:

# data_structure.py

df3 = pd.DataFrame({"note" : ["C", "D", "E", "F", "G", "A", "B"],
    "weekday": ["Mon", "Tue", "Wed", "Thu", "Fri", "Sat", "Sun"]})
print("df3:\n{}\n".format(df3))

這段代碼輸出如下:

df3:
  note weekday
0    C     Mon
1    D     Tue
2    E     Wed
3    F     Thu
4    G     Fri
5    A     Sat
6    B     Sun

請註意:

  • DataFrame的不同列可以是不同的數據類型
  • 如果以Series數組來創建DataFrame,每個Series將成為一行,而不是一列

例如:

# data_structure.py

noteSeries = pd.Series(["C", "D", "E", "F", "G", "A", "B"],
    index=[1, 2, 3, 4, 5, 6, 7])
weekdaySeries = pd.Series(["Mon", "Tue", "Wed", "Thu", "Fri", "Sat", "Sun"],
    index=[1, 2, 3, 4, 5, 6, 7])
df4 = pd.DataFrame([noteSeries, weekdaySeries])
print("df4:\n{}\n".format(df4))

df4的輸出如下:

df4:
     1    2    3    4    5    6    7
0    C    D    E    F    G    A    B
1  Mon  Tue  Wed  Thu  Fri  Sat  Sun

我們可以通過下麵的形式給DataFrame添加或者刪除列數據:

# data_structure.py

df3["No."] = pd.Series([1, 2, 3, 4, 5, 6, 7])
print("df3:\n{}\n".format(df3))

del df3["weekday"]
print("df3:\n{}\n".format(df3))

這段代碼輸出如下:

df3:
  note weekday  No.
0    C     Mon    1
1    D     Tue    2
2    E     Wed    3
3    F     Thu    4
4    G     Fri    5
5    A     Sat    6
6    B     Sun    7

df3:
  note  No.
0    C    1
1    D    2
2    E    3
3    F    4
4    G    5
5    A    6
6    B    7

Index對象與數據訪問

pandas的Index對象包含了描述軸的元數據信息。當創建Series或者DataFrame的時候,標簽的數組或者序列會被轉換成Index。可以通過下麵的方式獲取到DataFrame的列和行的Index對象:

# data_structure.py

print("df3.columns\n{}\n".format(df3.columns))
print("df3.index\n{}\n".format(df3.index))

這兩行代碼輸出如下:

df3.columns
Index(['note', 'No.'], dtype='object')

df3.index
RangeIndex(start=0, stop=7, step=1)

請註意:

  • Index並非集合,因此其中可以包含重覆的數據
  • Index對象的值是不可以改變,因此可以通過它安全的訪問數據

DataFrame提供了下麵兩個操作符來訪問其中的數據:

  • loc:通過行和列的索引來訪問數據
  • iloc:通過行和列的下標來訪問數據

例如這樣:

# data_structure.py

print("Note C, D is:\n{}\n".format(df3.loc[[0, 1], "note"]))
print("Note C, D is:\n{}\n".format(df3.iloc[[0, 1], 0]))

第一行代碼訪問了行索引為0和1,列索引為“note”的元素。第二行代碼訪問了行下標為0和1(對於df3來說,行索引和行下標剛好是一樣的,所以這裡都是0和1,但它們卻是不同的含義),列下標為0的元素。

這兩行代碼輸出如下:

Note C, D is:
0    C
1    D
Name: note, dtype: object

Note C, D is:
0    C
1    D
Name: note, dtype: object

文件操作

pandas庫提供了一系列的read_函數來讀取各種格式的文件,它們如下所示:

  • read_csv
  • read_table
  • read_fwf
  • read_clipboard
  • read_excel
  • read_hdf
  • read_html
  • read_json
  • read_msgpack
  • read_pickle
  • read_sas
  • read_sql
  • read_stata
  • read_feather

讀取Excel文件

註:要讀取Excel文件,還需要安裝另外一個庫:xlrd

通過pip可以這樣完成安裝:

sudo pip3 install xlrd

安裝完之後可以通過pip查看這個庫的信息:

$  pip3 show xlrd
Name: xlrd
Version: 1.1.0
Summary: Library for developers to extract data from Microsoft Excel (tm) spreadsheet files
Home-page: http://www.python-excel.org/
Author: John Machin
Author-email: sjmachin@lexicon.net
License: BSD
Location: /Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages
Requires:

接下來我們看一個讀取Excel的簡單的例子:

# file_operation.py

import pandas as pd
import numpy as np

df1 = pd.read_excel("data/test.xlsx")
print("df1:\n{}\n".format(df1))

這個Excel的內容如下:

df1:
   C  Mon
0  D  Tue
1  E  Wed
2  F  Thu
3  G  Fri
4  A  Sat
5  B  Sun

註:本文的代碼和數據文件可以通過文章開頭提到的Github倉庫獲取。

讀取CSV文件

下麵,我們再來看讀取CSV文件的例子。

第一個CSV文件內容如下:

$ cat test1.csv
C,Mon
D,Tue
E,Wed
F,Thu
G,Fri
A,Sat

讀取的方式也很簡單:

# file_operation.py

df2 = pd.read_csv("data/test1.csv")
print("df2:\n{}\n".format(df2))

我們再來看第2個例子,這個文件的內容如下:

$ cat test2.csv
C|Mon
D|Tue
E|Wed
F|Thu
G|Fri
A|Sat

嚴格的來說,這並不是一個CSV文件了,因為它的數據並不是通過逗號分隔的。在這種情況下,我們可以通過指定分隔符的方式來讀取這個文件,像這樣:

# file_operation.py

df3 = pd.read_csv("data/test2.csv", sep="|")
print("df3:\n{}\n".format(df3))

實際上,read_csv支持非常多的參數用來調整讀取的參數,如下表所示:

參數說明
path 文件路徑
sep或者delimiter 欄位分隔符
header 列名的行數,預設是0(第一行)
index_col 列號或名稱用作結果中的行索引
names 結果的列名稱列表
skiprows 從起始位置跳過的行數
na_values 代替NA的值序列
comment 以行結尾分隔註釋的字元
parse_dates 嘗試將數據解析為datetime。預設為False
keep_date_col 如果將列連接到解析日期,保留連接的列。預設為False
converters 列的轉換器
dayfirst 當解析可以造成歧義的日期時,以內部形式存儲。預設為False
data_parser 用來解析日期的函數
nrows 從文件開始讀取的行數
iterator 返回一個TextParser對象,用於讀取部分內容
chunksize 指定讀取塊的大小
skip_footer 文件末尾需要忽略的行數
verbose 輸出各種解析輸出的信息
encoding 文件編碼
squeeze 如果解析的數據只包含一列,則返回一個Series
thousands 千數量的分隔符

詳細的read_csv函數說明請參見這裡:pandas.read_csv

處理無效值

現實世界並非完美,我們讀取到的數據常常會帶有一些無效值。如果沒有處理好這些無效值,將對程式造成很大的干擾。

對待無效值,主要有兩種處理方法:直接忽略這些無效值;或者將無效值替換成有效值。

下麵我先創建一個包含無效值的數據結構。然後通過pandas.isna函數來確認哪些值是無效的:

# process_na.py

import pandas as pd
import numpy as np

df = pd.DataFrame([[1.0, np.nan, 3.0, 4.0],
                  [5.0, np.nan, np.nan, 8.0],
                  [9.0, np.nan, np.nan, 12.0],
                  [13.0, np.nan, 15.0, 16.0]])

print("df:\n{}\n".format(df));
print("df:\n{}\n".format(pd.isna(df)));****

這段代碼輸出如下:

df:
      0   1     2     3
0   1.0 NaN   3.0   4.0
1   5.0 NaN   NaN   8.0
2   9.0 NaN   NaN  12.0
3  13.0 NaN  15.0  16.0

df:
       0     1      2      3
0  False  True  False  False
1  False  True   True  False
2  False  True   True  False
3  False  True  False  False

忽略無效值

我們可以通過pandas.DataFrame.dropna函數拋棄無效值:

# process_na.py

print("df.dropna():\n{}\n".format(df.dropna()));

註:dropna預設不會改變原先的數據結構,而是返回了一個新的數據結構。如果想要直接更改數據本身,可以在調用這個函數的時候傳遞參數 inplace = True

對於原先的結構,當無效值全部被拋棄之後,將不再是一個有效的DataFrame,因此這行代碼輸出如下:

df.dropna():
Empty DataFrame
Columns: [0, 1, 2, 3]
Index: []

我們也可以選擇拋棄整列都是無效值的那一列:

# process_na.py

print("df.dropna(axis=1, how='all'):\n{}\n".format(df.dropna(axis=1, how='all')));

註:axis=1表示列的軸。how可以取值’any’或者’all’,預設是前者。

這行代碼輸出如下:

df.dropna(axis=1, how='all'):
      0     2     3
0   1.0   3.0   4.0
1   5.0   NaN   8.0
2   9.0   NaN  12.0
3  13.0  15.0  16.0

替換無效值

我們也可以通過fillna函數將無效值替換成為有效值。像這樣:

# process_na.py

print("df.fillna(1):\n{}\n".format(df.fillna(1)));

這段代碼輸出如下:

df.fillna(1):
      0    1     2     3
0   1.0  1.0   3.0   4.0
1   5.0  1.0   1.0   8.0
2   9.0  1.0   1.0  12.0
3  13.0  1.0  15.0  16.0

將無效值全部替換成同樣的數據可能意義不大,因此我們可以指定不同的數據來進行填充。為了便於操作,在填充之前,我們可以先通過rename方法修改行和列的名稱:

# process_na.py

df.rename(index={0: 'index1', 1: 'index2', 2: 'index3', 3: 'index4'},
          columns={0: 'col1', 1: 'col2', 2: 'col3', 3: 'col4'},
          inplace=True);
df.fillna(value={'col2': 2}, inplace=True)
df.fillna(value={'col3': 7}, inplace=True)
print("df:\n{}\n
              
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在寫主題樣式的時候經常會碰到用背景圖鋪滿整個背景的需求,這裡分享下使用方法 需要的效果 以圖片bg.jpg為例 最簡單,最高效的方法 CSS3.0 歸功於css3.0新增的一個屬性background-size,可以簡單的實現這個效果,這裡用fixed和center定位背景圖,然後用backgrou ...
  • JavaScript 字元串用於存儲和操作文本。 JavaScript 字元串 JavaScript 字元串是引號中的零個或多個字元。 實例 var x = "Bill Gates" 您能夠使用單引號或雙引號: 實例 var carname = "Porsche 911"; var carname ...
  • jquery之cookie操作 定義:讓網站伺服器把少量數據儲存到客戶端的硬碟或記憶體,從客戶端的硬碟讀取數據的一種技術; 下載與引入:jquery.cookie.js基於jquery;先引入jquery,再引入:jquery.cookie.js;下載:http://plugins.jquery.co ...
  • logstash elk elk數據處理 logstash數據處理 ...
  • 前言 開源的分散式存儲系統比較多,比較有名的有:Ceph、GlusterFS、HDFS、TFS等。這些系統都比較複雜,代碼動則幾十上百萬行,這些系統對初學者來說門檻比較高,特別是對於從事非分散式存儲行業,但又想跨行學習分散式的同學來說,往往有這想法,但是不知道怎麼入手。本文介紹之前實現的一個C++極 ...
  • 之前介紹了什麼時候進行服務化,以及服務化拆分的兩種方式即橫向拆分和縱向拆分,還提到了引入微服務架構需要解決的問題。 這篇文章將進行介紹微服務架構的各個組成部分。 下圖是微服務架構的模塊圖,在具體介紹之前先來看下一次正常的服務調用的流程。 首先服務提供者(就是提供服務的一方)按照一定格式的服務描述,向 ...
  • 前言 今天我們一起看看中介者模式,怎麼去理解這個模式呢?說起來也簡單、好理解。生活中我們租房經常都是通過中介來實現的。一般租房要麼是房東直租要麼是中介。那麼今天要講的中介者模式和租房的這個中介是否有關係呢?當然是有點關係的。中介者模式是用來降低多個對象和類之間的通信複雜性。這種模式提供了一個中介類, ...
  • 問題部分 描述: 一元多項式的標準表達式可以寫為 : $f(x) = a_{ 0 } + a_{ 1 }x + \dots + a_{n 1} x^{n 1} + a_{n} x^{n}$。現給定一個多項式的階數$n$,並將全體繫數$\{a_{i}\}_{i = 0}^{n}$存放在數組$a[]$里 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...