Pandas簡易入門(三)

来源:http://www.cnblogs.com/kylinlin/archive/2016/03/01/5230062.html
-Advertisement-
Play Games

本節主要介紹一下Pandas的數據結構,本文引用的網址:https://www.dataquest.io/mission/146/pandas-internals-series 本文所使用的數據來自於:https://github.com/fivethirtyeight/data/tree/mast...


本節主要介紹一下Pandas的數據結構,本文引用的網址:https://www.dataquest.io/mission/146/pandas-internals-series

本文所使用的數據來自於:https://github.com/fivethirtyeight/data/tree/master/fandango

該數據主要描述了一些電影的爛番茄評分情況

 

數據結構

在Pandas中,主要有三種重要的數據結構:

  • Series(值的集合)
  • DataFrame(Series的集合)
  • Panel(DataFrame的集合)

 

Pandas的Series是Numpy的數組(array)的升級版,Numpy只能使用整數來所索引,但是Series還可以使用字元串來索引,還能使用混合的數據類型和NaN來表示缺失值,一個Series對象可以包含以下幾種數據類型:

  • float -- 表示字元串數值
  • int -- 表示整型數值
  • bool -- 表示布爾值
  • datetime64[ns] -- 表示日期和時間(不帶時區)
  • datetime64[ns, tz] -- 表示日期和時間(有時區)
  • timedelta[ns] -- 以不同的格式(分鐘,秒等)格式表示時間
  • category -- 表示分類值
  • object -- 表示字元串值

 

DataFrame使用Series對象來表示每一列的數據,所以當從一個DataFrame中選擇某一列的時間,Pandas會返回代表了該列的Series對象,並且從0開始索引該Series的行,當然也可以使用分片來選擇多行

# 分別選擇FILM和RottenTomatoes兩列,並輸出前5行

fandango = pd.read_csv('fandango_score_comparison.csv')

series_film = fandango['FILM']

print(series_film.head(5)) 

series_rt = fandango['RottenTomatoes']

print(series_rt[:5])

輸出:

Image 235

原始的數據如下:

Image 236

 

 

自定義索引

上面提取了兩個Series,series_film代表了電影名稱,series_rt代表了評分,我現在想知道這兩部電影(Minions (2015), Leviathan (2014))的評分,最簡單的方法就是這樣

print(fandango[fandango['FILM']=='Minions (2015)']['RottenTomatoes'].values[0])

print(fandango[fandango['FILM']=='Leviathan (2014)']['RottenTomatoes'].values[0])

# 這樣要對每部電影都寫一個語句是非常麻煩的

# 最好的方法就是將series_film和series_rt組合成一個新的Series,用電影名稱作為索引,電影評分作為值,這樣要查詢多部電影時就變得方便

film_names = series_film.values

rt_scores = series_rt.values

series_custom = Series(rt_scores , index=film_names) # 創建一個Series,需要指定data和index參數

Image 237

 

#此時要查詢多部電影就變得簡單

series_custom[['Minions (2015)', 'Leviathan (2014)']]

#對於上面新建的一個Series,現在要對電影的名稱進行按字母重新排序,可以使用sort_index()函數,如果要對電影的評分排序則使用sort_values()函數

sc2 = series_custom.sort_index()

sc3 = series_custom.sort_values()

Image 238

Image 239

 

向量化運算

當你要操作數據集中的某一列的數據時,Series對象可以快速地進行向量化的運算(自動對該列中的每個數據值都進行運算),Pandas的底層使用了Numpy,而Numpy則使用了C語言來迴圈一整列的值,所以會快得飛起。要是你特意使用一個for來迴圈一個Series對象,實際上會變得非常慢。

 

向量化運算的例子

#對一個Series進行加減乘除運算

series_custom/10

# 這個語句實際上是對series_custom這個Series中的每個值都進行除法運算,註意,是不會對索引進行運算的

# 也可以使用Numpy的函數來進行運算

np.max(series_custom) #求出電影分數的最大值

還可以進行比較與過濾

series_custom > 50 # 返回一個包含布爾值的列表,分數大於50則返回True,可以用於過濾數據

series_greater_than_50 = series_custom[series_custom > 50]

# 也可以使用&(and)和 |(or)連接幾個判斷

series_greater_than_50_&_less_than_80 = \

    series_custom[(series_custom > 50)  & (series_custom < 80) ]

當然,也可以直接對兩個Series進行運算

rt_critics = Series(fandango['RottenTomatoes'].values, index=fandango['FILM']) # 影評人的評分

rt_users = Series(fandango['RottenTomatoes_User'].values, index=fandango['FILM']) #用戶評分

rt_mean = (rt_critics + rt_users) / 2 # 平均分

Image 240


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 因為公司項目線上人數的增加,隨著現在硬體成本越來越低,大多數的生產環境記憶體大多都已經達到 16G,尤其最新的阿裡雲,客戶的機器都是配置超高的java主機,但是Java的運行環境,記憶體使用有限 ,這樣就造成了這台伺服器資源的浪費,所以單機的多Tomcat集群就很有必要!當然有客戶有多台伺服器,這樣更好
  • 首先純html頁要用meta標簽聲明編碼<meta http-equiv="Content-Type" content="text/html; charset="utf-8" />有php輸出的頁要使用header函數聲明編碼header("Content-Type:text/html; chars
  • 相信String這個類是Java中使用得最頻繁的類之一,並且又是各大公司面試喜歡問到的地方,今天就來和大家一起學習一下String、StringBuilder和StringBuffer這幾個類,分析它們的異同點以及瞭解各個類適用的場景。下麵是本文的目錄大綱: 一.你瞭解String類嗎? 二.深入理
  • 語法 它通過{}和:來代替%。“映射”示例 通過位置 In [1]: '{0},{1}'.format('kzc',18) Out[1]: 'kzc,18' In [2]: '{},{}'.format('kzc',18) Out[2]: 'kzc,18' In [3]: '{1},{0},{1}'
  • excel表格上傳和下載,斷斷續續寫了很久,趕緊記下來萬一以後忘記就虧大了= = 資料庫有三張表: 上傳一張表格,每個sheet對應一個if_table_n,if_user_table記錄上傳信息,if_column_map記錄每個if_table_n的列名與資料庫列名對應,if_system_co
  • 一、網路編程中的重要的類 1、InetAddress:互聯網協議(IP)地址 封裝電腦的IP地址和DNS(功能變數名稱解析),沒有埠,構造器私有化。通過相關方法得到。 例如: public class InetDemo01 { public static void main(String[] args)
  • web應用程式基本上都是在瀏覽器地址欄輸入一段網站,然後進入,最後瀏覽器顯示你想要的東西。 這就是用戶所能體會到的東西。那作為程式員我們看到了什麼呢? 一次HTTP 請求主要的流程是: 1、DNS伺服器解析功能變數名稱(瀏覽器地址欄的地址)獲取相應的IP地址、埠號、 服務名。 2、客戶端根據解析後的地址向
  • 在前面一篇文章中已經講述了在進程和線程的由來,今天就來講一下在Java中如何創建線程,讓線程去執行一個子任務。下麵先講述一下Java中的應用程式和進程相關的概念知識,然後再闡述如何創建線程以及如何創建進程。下麵是本文的目錄大綱: 一.Java中關於應用程式和進程相關的概念 二.Java中如何創建線程
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...