pandas對excel處理過程中的總結

来源:https://www.cnblogs.com/BaronCode/archive/2018/11/20/9992313.html
-Advertisement-
Play Games

在處理excel數據時需要將一組具有相同標簽值的數據給按標簽抽取出來,同樣的標簽值對應著同一個類別,這項操作讓我對pandas的聚合功能有了更深刻的認識。 所謂聚合groupby,實際上是指將向量或者向量對應的高維度數據映射為標量值的過程,這裡強調求出標量值其實是為了好顯示groupby對象,本身只 ...


在處理excel數據時需要將一組具有相同標簽值的數據給按標簽抽取出來,同樣的標簽值對應著同一個類別,這項操作讓我對pandas的聚合功能有了更深刻的認識。

所謂聚合groupby,實際上是指將向量或者向量對應的高維度數據映射為標量值的過程,這裡強調求出標量值其實是為了好顯示groupby對象,本身只做聚合的話其實得到的對象並不是dataFrame

而是一個<pandas.core.groupby>對象,這個對象是不能像dataFrame對象一樣直接可視化的,為了要可視化,必須找到一個可以計算得到的標量值,

這裡考慮到這次用到的excel本身的特點(順便吐槽一下,這個讓我幫忙做數據分析的項目其實就是個f**k_ing project,完全無腦的去找特征,實在是把室友逼得不要不要的了,看不下去才幫忙做的)

我有了一個非常大膽的想法,如果數據本身對應的示值只有一列,那麼用mean計算出的值與本身是一樣的,這樣我採用了提取三列,其中兩列用於聚合然後利用求mean搞到了可以寫進excel里的dataFrame形式的groupby處理後的對象。

其實強調groupby處理完變回dataFrame對象主要是了文件讀寫,這是pandas中一個非常慘無人道的東西,所以為了讀寫統一,你懂的。

順便提一句關於抽取dataFrame中不相連幾列的方法,在df([['A', 'B', 'C']])的表達式中,註意有兩個中括弧,這個才是對列進行提取的關鍵語法,只有一對括弧則是對行進行操作,千萬註意。

說到了excel,最近師兄給的excel還要重新修改格式,做運算式解析時一對圓括弧簡直不忍直視,區分運算括弧與參數括弧真的也是一件十分頭大的事情,話說回來,對大量數據進行操作的時候python的速度並不算快,可以泡杯茶好好享受一下生活了。。。

紀念2018-11-20第一次生嚼胡羅卜!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、使用U盤刻錄鏡像 1.安裝之後我們打開軟體,點擊文件打開,找到我們剛纔進行下載的Ubuntu的ISO文件,然後點擊打開,完成ISO文件的載入。接著我們插入U盤,點擊UltraISO啟動選項,然後找到寫入硬碟映像選項,點擊它進入到將要進行操作的界面: 2.此時如果你插入了U盤就可以看到,如果你插入 ...
  • 主要有兩種方式: 使用:resvport選項, mount 掛載命令時. 使用:insecure選項, exportfs 文件配置時. 這些, 網上又很多比較好的例子: https://blog.csdn.net/nicai888/article/details/69367294 https://b ...
  • 由於公司線上伺服器數量太少,又要用於生產,領導讓上zabbix,但熟知zabbix搭建需要LAMP或者LNMP,如果和生產伺服器混搭的話,不方便管理,也怕出問題,所以就先使用docker方式搭建管理。 zabbix組件:web、zabbix-server、zabbix-agent、如果伺服器過多還需 ...
  • 一、Linux 的五個重啟命令 1、shutdown 2、poweroff 3、init 4、reboot 5、halt 二、五個重啟命令的具體說明 shutdown reboot 在linux下一些常用的關機/重啟命令有shutdown、halt、reboot、及init,它們都可以達到重啟系統的 ...
  • 迫於Windows 系統最近的各種故障,今天脫坑換了openSUSE Linux ,在上網途中播放視頻時偶爾會出現電流音,雖然影響不大,但是還是進行了一些排查。 通過觀察電流音出現時的系統負載的波段,發現電流音可能由於CPU變頻導致的,於是進行下一步排查,最後懷疑是 Intel 節能技術(Enhan ...
  • 在內核中代碼調用過程難以跟蹤,上下文關係複雜,確實讓人頭痛 調用dump_stack()就會列印當前cpu的堆棧的調用函數了。 如此,一目瞭然的就能看到當前上下文環境,調用關係了 假設: 遇到uvc_probe_video這麼一個函數,不知道它最終是被誰調用到的,根據linux設備模型,初步推測,p ...
  • 基於 ssh 的 sftp 服務相比 ftp 有更好的安全性(非明文帳號密碼傳輸)和方便的許可權管理(限制用戶的活動目錄)。 1、開通 sftp 帳號,使用戶只能 sftp 操作文件, 而不能 ssh 到伺服器 2、限定用戶的活動目錄,使用戶只能在指定的目錄下活動,使用 sftp 的 ChrootDi ...
  • 一、知識準備 1、在linux中,一切皆為文件,所有不同種類的類型都被抽象成文件(比如:塊設備,socket套接字,pipe隊列) 2、操作這些不同的類型就像操作文件一樣,比如增刪改查等 二、環境準備 | 組件 | 版本 | | | | | OS | CentOS Linux release 7.5 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...