`pandas`小技巧系列是介紹的是使用`pandas`分析數據時,最常用的一些操作技巧。 具體包括: 1. [創建測試數據](https://www.cnblogs.com/wang_yb/p/17552748.html) 學習pandas的過程中,為了嘗試pandas提供的各類功能強大的函數,常 ...
pandas
小技巧系列是介紹的是使用pandas
分析數據時,最常用的一些操作技巧。
具體包括:
- 創建測試數據
學習pandas的過程中,為了嘗試pandas提供的各類功能強大的函數,常常需要花費很多時間去創造測試數據。
本篇介紹如何快速的創建測試數據。
-
讀取多個文件
日常分析數據時,只有單一數據文件的情況其實很少見,更多的情況是,
我們從同一個數據來源定期或不定期的採集了很多數據文件;或者從不同的數據源採集多種不同格式的數據文件。本篇介紹讀取多個文件的技巧。
- 隨機挑選子集
在 pandas 中,如果遇到數據量特別大的情況,隨機挑選 DataFrame 的子集可以幫助我們更深入地瞭解數據,從而更好地進行數據分析和決策。
- 按類型選擇列
這次介紹的是按照列的數據類型來選擇列,按類型選擇列可以幫助你快速選擇正確的數據類型,提高數據分析的效率。
-
修改列的名稱
重命名 pandas 數據中列的名稱是一種常見的數據預處理任務。
通常是因為原始數據中的列名稱可能不夠清晰或準確。例如,列名可能包含空格、大寫字母、特殊字元或拼寫錯誤。本篇介紹修改列名稱的技巧。
-
反轉行列順序
反轉pandas DataFrame的行列順序是一種非常實用的操作。本篇介紹幾種pandas中常用的反轉行列順序的方法。
-
拆分列
拆分列是pandas中常用的一種數據操作,它可以將一個包含多個值的列按照指定的規則拆分成多個新列,方便進行後續的分析和處理。本篇簡要介紹下pandas拆分列的常用方法。
- 缺失值的列
在實際應用中,數據集中經常會存在缺失值,也就是某些數據項的值並未填充或者填充不完整。
缺失值的存在可能會對後續的數據分析和建模產生影響,因此需要進行處理。
- 字元串轉數字
字元串轉數字的用途和場景很多,本篇介紹一些常用的字元串轉數值的方法。
- 列值的映射
映射列值是指將一個列中的某些特定值映射為另外一些值,常用於數據清洗和轉換。
- 日期相關處理
日期處理相關內容之前pandas基礎系列中有一篇專門介紹過,本篇補充兩個常用的技巧。
-
數據轉置
所謂數據轉置,就是是將原始數據表格沿著對角線翻折,使原來的行變成新的列,原來的列變成新的行,從而更方便地進行數據分析和處理。本篇介紹幾個數據轉置常用的場景,感受下轉置前後數據展示的區別。
- 統計值作為新列
這次介紹的小技巧不是統計,而是把統計結果作為新列和原來的數據放在一起。
-
category類型補充
category類型在pandas基礎系列中有一篇介紹數據類型的文章中已經介紹過。
category類型並不是python中的類型,是pandas特有的類型。本篇將補充介紹深入使用category類型時,經常會遇到的兩個問題。
-
DataFrame顯示參數
我們在jupyter notebook中使用pandas顯示DataFrame的數據時,
由於屏幕大小,或者數據量大小的原因,常常會覺得顯示出來的表格不是特別符合預期。這時,就需要調整pandas顯示DataFrame的方式。
pandas為我們提供了很多調整顯示方式的參數,具體參見文末附錄中的鏈接。
本篇介紹幾個我經常用到的參數來拋磚引玉。
- DataFrame顯示樣式
本篇介紹DataFrame的顯示樣式的調整,顯示樣式主要是對錶格本身的調整,
比如顏色,通過顏色可以突出顯示重要的值,觀察數據時可以更加高效的獲取主要信息。
- 花哨的DataFrame
最近github上發現了一個庫(plottable),可以用簡單的方式就設置出花哨的 DataFrame 樣式。