如果你在使用 Pandas(Python Data Analysis Library) 的話,下麵介紹的對你一定會有幫助的。 如果你在使用 Pandas(Python Data Analysis Library) 的話,下麵介紹的對你一定會有幫助的。 如果你在使用 Pandas(Python Dat ...
- 如果你在使用 Pandas(Python Data Analysis Library) 的話,下麵介紹的對你一定會有幫助的。
- DataFrame:行列數據,類似 Excel 的 sheet,或關係型資料庫的表
- series:單列數據
- axis:0:行,1:列
- shape:DataFrame的行列數,(行數,列數)
1. 載入 CSV
Read_csv 方法有很多參數,有效的利用這些參數可以減輕數據預處理的工作。誰都不願意做數據清洗,那麼我們就在載入數據的時候做一些簡單的數據處理- 直接載入
-
- 無參數載入
-
- 選擇特定列載入
-
- 時間轉換載入
- 分批載入
2. 瀏覽 DataFrame 數據
- df.head(n):瀏覽數據的前 n 行,預設 5 行
- df.tail(n):瀏覽數據的末尾 n 行,預設 5 行
- df.sample(n):隨機瀏覽 n 行數據,預設 5 行
- df.shape:tuple 類型的數據行列數,(行數,列數)
- df.describe():計算評估數據的趨勢
- df.info():記憶體和數據類型
3. 在 DataFrame 中增加列
在 DataFrame 中添加新列的操作很簡單,下麵介紹幾種方式- 簡單方式
df['new_column'] = 1
- 計算方式
- 條件方式
- 迴圈方式
4. 選擇指定單元格
類似於 Excel 單元格的選擇,Pandas 提供了這樣的功能,操作很簡單,但是我本人理解起來確實沒有操作看上去那麼簡單。Pandas 提供了三個方法做類似的操作,loc,iloc,ix,ix 官方已經不建議使用,所以我們下麵介紹 loc 和 iloc- loc 根據標簽選取loc
- iloc 根據索引選取
- 選取行數據
- df.loc[[行索引數組]],df.iloc[[行索引數組]]
註意:
- 索引開始位置:閉區間
- 索引結束位置:開區間
- loc 和 iloc 選取整列數據的時候,看上去與 df[列名數組] 的方式一致,但是其實前者返回的仍然是 DataFrame,後者返回的是 Series
知乎:Pandas 功能介紹(一) 我的博客即將搬運同步至騰訊雲+社區,邀請大家一同入駐:https://cloud.tencent.com/developer/support-plan