Pandas簡易入門（三）_ZenDei技術網路在線

Pandas簡易入門（三）

-Advertisement-

本節主要介紹一下Pandas的數據結構，本文引用的網址：https://www.dataquest.io/mission/146/pandas-internals-series 本文所使用的數據來自於：https://github.com/fivethirtyeight/data/tree/mast...

本節主要介紹一下Pandas的數據結構，本文引用的網址：https://www.dataquest.io/mission/146/pandas-internals-series

本文所使用的數據來自於：https://github.com/fivethirtyeight/data/tree/master/fandango

該數據主要描述了一些電影的爛番茄評分情況

數據結構

在Pandas中，主要有三種重要的數據結構：

Series（值的集合）
DataFrame（Series的集合）
Panel（DataFrame的集合）

Pandas的Series是Numpy的數組（array）的升級版，Numpy只能使用整數來所索引，但是Series還可以使用字元串來索引，還能使用混合的數據類型和NaN來表示缺失值，一個Series對象可以包含以下幾種數據類型：

float -- 表示字元串數值
int -- 表示整型數值
bool -- 表示布爾值
datetime64[ns] -- 表示日期和時間（不帶時區）
datetime64[ns, tz] -- 表示日期和時間（有時區）
timedelta[ns] -- 以不同的格式（分鐘，秒等）格式表示時間
category -- 表示分類值
object -- 表示字元串值

DataFrame使用Series對象來表示每一列的數據，所以當從一個DataFrame中選擇某一列的時間，Pandas會返回代表了該列的Series對象，並且從0開始索引該Series的行，當然也可以使用分片來選擇多行

# 分別選擇FILM和RottenTomatoes兩列，並輸出前5行

fandango = pd.read_csv('fandango_score_comparison.csv')

series_film = fandango['FILM']

print(series_film.head(5)) 

series_rt = fandango['RottenTomatoes']

print(series_rt[:5])

輸出：

原始的數據如下：

自定義索引

上面提取了兩個Series，series_film代表了電影名稱，series_rt代表了評分，我現在想知道這兩部電影（Minions (2015), Leviathan (2014)）的評分，最簡單的方法就是這樣

print(fandango[fandango['FILM']=='Minions (2015)']['RottenTomatoes'].values[0])

print(fandango[fandango['FILM']=='Leviathan (2014)']['RottenTomatoes'].values[0])

# 這樣要對每部電影都寫一個語句是非常麻煩的

# 最好的方法就是將series_film和series_rt組合成一個新的Series，用電影名稱作為索引，電影評分作為值，這樣要查詢多部電影時就變得方便

film_names = series_film.values

rt_scores = series_rt.values

series_custom = Series(rt_scores , index=film_names) # 創建一個Series，需要指定data和index參數

#此時要查詢多部電影就變得簡單

series_custom[['Minions (2015)', 'Leviathan (2014)']]

#對於上面新建的一個Series，現在要對電影的名稱進行按字母重新排序，可以使用sort_index()函數，如果要對電影的評分排序則使用sort_values()函數

sc2 = series_custom.sort_index()

sc3 = series_custom.sort_values()

向量化運算

當你要操作數據集中的某一列的數據時，Series對象可以快速地進行向量化的運算（自動對該列中的每個數據值都進行運算），Pandas的底層使用了Numpy，而Numpy則使用了C語言來迴圈一整列的值，所以會快得飛起。要是你特意使用一個for來迴圈一個Series對象，實際上會變得非常慢。

向量化運算的例子

#對一個Series進行加減乘除運算

series_custom/10

# 這個語句實際上是對series_custom這個Series中的每個值都進行除法運算，註意，是不會對索引進行運算的

# 也可以使用Numpy的函數來進行運算

np.max(series_custom) #求出電影分數的最大值

還可以進行比較與過濾

series_custom > 50 # 返回一個包含布爾值的列表，分數大於50則返回True，可以用於過濾數據

series_greater_than_50 = series_custom[series_custom > 50]

# 也可以使用&(and)和 |(or)連接幾個判斷

series_greater_than_50_&_less_than_80 = \

    series_custom[(series_custom > 50)  & (series_custom < 80) ]

當然，也可以直接對兩個Series進行運算

rt_critics = Series(fandango['RottenTomatoes'].values, index=fandango['FILM']) # 影評人的評分

rt_users = Series(fandango['RottenTomatoes_User'].values, index=fandango['FILM']) #用戶評分

rt_mean = (rt_critics + rt_users) / 2 # 平均分

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

apache2.2.25+tomcat7.0.47集群方案

因為公司項目線上人數的增加，隨著現在硬體成本越來越低，大多數的生產環境記憶體大多都已經達到 16G，尤其最新的阿裡雲，客戶的機器都是配置超高的java主機，但是Java的運行環境，記憶體使用有限，這樣就造成了這台伺服器資源的浪費，所以單機的多Tomcat集群就很有必要！當然有客戶有多台伺服器，這樣更好
PHP頁面中文亂碼問題

首先純html頁要用meta標簽聲明編碼<meta http-equiv="Content-Type" content="text/html; charset="utf-8" />有php輸出的頁要使用header函數聲明編碼header("Content-Type:text/html; chars
探秘Java中String、StringBuilder以及StringBuffer

相信String這個類是Java中使用得最頻繁的類之一，並且又是各大公司面試喜歡問到的地方，今天就來和大家一起學習一下String、StringBuilder和StringBuffer這幾個類，分析它們的異同點以及瞭解各個類適用的場景。下麵是本文的目錄大綱：一.你瞭解String類嗎？二.深入理
Python中用format函數格式化字元串的用法

語法它通過{}和:來代替%。“映射”示例通過位置 In [1]: '{0},{1}'.format('kzc',18) Out[1]: 'kzc,18' In [2]: '{},{}'.format('kzc',18) Out[2]: 'kzc,18' In [3]: '{1},{0},{1}'
PHPexcel：多sheet上傳和下載

excel表格上傳和下載，斷斷續續寫了很久，趕緊記下來萬一以後忘記就虧大了= = 資料庫有三張表：上傳一張表格，每個sheet對應一個if_table_n,if_user_table記錄上傳信息，if_column_map記錄每個if_table_n的列名與資料庫列名對應，if_system_co
網路編程之簡單總結

一、網路編程中的重要的類 1、InetAddress:互聯網協議（IP）地址封裝電腦的ＩＰ地址和ＤＮＳ（功能變數名稱解析），沒有埠，構造器私有化。通過相關方法得到。例如： public class InetDemo01 { public static void main(String[] args)
web應用程式性能優化

web應用程式基本上都是在瀏覽器地址欄輸入一段網站，然後進入，最後瀏覽器顯示你想要的東西。這就是用戶所能體會到的東西。那作為程式員我們看到了什麼呢？一次HTTP 請求主要的流程是： 1、DNS伺服器解析功能變數名稱（瀏覽器地址欄的地址）獲取相應的IP地址、埠號、服務名。 2、客戶端根據解析後的地址向
Java併發編程：如何創建線程？

在前面一篇文章中已經講述了在進程和線程的由來，今天就來講一下在Java中如何創建線程，讓線程去執行一個子任務。下麵先講述一下Java中的應用程式和進程相關的概念知識，然後再闡述如何創建線程以及如何創建進程。下麵是本文的目錄大綱：一.Java中關於應用程式和進程相關的概念二.Java中如何創建線程