在處理excel數據時需要將一組具有相同標簽值的數據給按標簽抽取出來,同樣的標簽值對應著同一個類別,這項操作讓我對pandas的聚合功能有了更深刻的認識。 所謂聚合groupby,實際上是指將向量或者向量對應的高維度數據映射為標量值的過程,這裡強調求出標量值其實是為了好顯示groupby對象,本身只 ...
在處理excel數據時需要將一組具有相同標簽值的數據給按標簽抽取出來,同樣的標簽值對應著同一個類別,這項操作讓我對pandas的聚合功能有了更深刻的認識。
所謂聚合groupby,實際上是指將向量或者向量對應的高維度數據映射為標量值的過程,這裡強調求出標量值其實是為了好顯示groupby對象,本身只做聚合的話其實得到的對象並不是dataFrame
而是一個<pandas.core.groupby>對象,這個對象是不能像dataFrame對象一樣直接可視化的,為了要可視化,必須找到一個可以計算得到的標量值,
這裡考慮到這次用到的excel本身的特點(順便吐槽一下,這個讓我幫忙做數據分析的項目其實就是個f**k_ing project,完全無腦的去找特征,實在是把室友逼得不要不要的了,看不下去才幫忙做的)
我有了一個非常大膽的想法,如果數據本身對應的示值只有一列,那麼用mean計算出的值與本身是一樣的,這樣我採用了提取三列,其中兩列用於聚合然後利用求mean搞到了可以寫進excel里的dataFrame形式的groupby處理後的對象。
其實強調groupby處理完變回dataFrame對象主要是了文件讀寫,這是pandas中一個非常慘無人道的東西,所以為了讀寫統一,你懂的。
順便提一句關於抽取dataFrame中不相連幾列的方法,在df([['A', 'B', 'C']])的表達式中,註意有兩個中括弧,這個才是對列進行提取的關鍵語法,只有一對括弧則是對行進行操作,千萬註意。
說到了excel,最近師兄給的excel還要重新修改格式,做運算式解析時一對圓括弧簡直不忍直視,區分運算括弧與參數括弧真的也是一件十分頭大的事情,話說回來,對大量數據進行操作的時候python的速度並不算快,可以泡杯茶好好享受一下生活了。。。
紀念2018-11-20第一次生嚼胡羅卜!