python數據分析實踐總結

来源:https://www.cnblogs.com/logos515/archive/2023/07/13/17552490.html
-Advertisement-
Play Games

> “我的懲罰是什麼?”伊薩克問艾爾曼。 “孤寂。”艾爾曼回答道。 ## 引言: 在近日的python數據分析實戰課中,我學習到使用python進行數據分析的流程、方法,對常使用的函數有一些認識和瞭解,對 numpy, pandas 包有了一定的理解但不深。 這篇博客將是我自己用於總結歸納的聖地,我 ...


“我的懲罰是什麼?”伊薩克問艾爾曼。
“孤寂。”艾爾曼回答道。

引言:

  在近日的python數據分析實戰課中,我學習到使用python進行數據分析的流程、方法,對常使用的函數有一些認識和瞭解,對 numpy, pandas 包有了一定的理解但不深。
這篇博客將是我自己用於總結歸納的聖地,我將對整個項目的 key point 進行歸納總結,提取其中精華之所在,汲取之加以奮發向前。

一、分析數據文件:

  在拿到數據的第一刻,莫急,先打開數據文件看一看,明白文件里的數據能夠說明什麼。於是乎我們得以提出分析的目標,並開始思索如何能夠實現我們的目的。例如,我們手裡有一份某電商平臺一年的營銷數據,這份數據中包含了達成交易訂單的用戶ID、本次訂單對應的商品數量、總價、時間,思考:我們可以利用這些數據得到哪些結論?——從時間維度:分析不同月份的營銷額;從客戶維度:分析回購率、復購率、新老用戶比例。根據得出的結論,我們得以制定相應的策略來提高商家的盈利。

二、數據預處理:

提一嘴,在文件最開始導入包的時候輸入 plt.rcParams['font.sans-serif'] = 'SimHei' 以讓中文能夠正常顯示(IPython中如此)

首先讀取文件,利用 pandas 根據不同文件類型選擇不同的讀取函數:

  • csv: pd.read_csv('name.csv', encoding='utf-8/GBK')

  • text: pd.read_table('name.txt', names=columns, sep='\s+') # names指定每一列數據的含義,sep是劃分數據時的參考,\s+表示跳過任意多的空格

  • excel: pd.read_excel('name.xlsx')

接著進行數據的預處理:

  • 對於出現NAN的行或列且需要刪除的:data.dropna(axis=0, how='any', inplace=True) # 刪除帶有NAN的一整行數據,並修改原值

  • 對於重覆出現的行或列:data.drop_duplicates(axis=0, inplace=True) # 刪除重覆的行,並修改原值

  • 對於無用的行或列:data.drop(columns='order_id', axis=1, inplace=True) # 刪除 order_id 這一列

  • 對於需要更新索引的數據:data.reset_index(drop=True, inplace=True) 把原來的索引index列刪除,並更新index

  • 對於單位不統一的數據:如下圖

看到銷售金額一列的單位有元也有萬元,並且含有逗號,為了方便處理,我們將其格式化。

def data_deal(number):
    if number.find('萬元')!= -1:#找到帶有萬元的,取出數字,去掉逗號,轉成float,*10000
        number_new = float(number[:number.find('萬元')].replace(',',''))*10000
    else: # 找到帶有元的並處理
        number_new = float(number[:number.find('元')].replace(',',''))
    return number_new
data['銷售金額'] = data['銷售金額'].map(data_deal)

這裡我們使用到了 Series.map() 函數,該函數的作用與 applyapplymap 類似,接收一個函數或含有映射關係的字典型對象,區別如下:

  • apply:作用於dataframe的整行或整列

  • applymap:作用於dataframe的每一個元素

  • map:作用於series中的每一個元素,在df結構中無法使用map函數

詳情:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.map.html?highlight=map#pandas.Series.map

Time:2023年7月13日23:22:21


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 總結一下Hive面試寶典中的要點,方便讀者快速過一遍Hive面試所需要的知識點。本文請搭配 2023 Hive 面試寶典 來食用更美味喲 ...
  • #### 先說一些廢話 總結一下Hive面試寶典,方便讀者快速過一遍Hive面試所需要的知識點 ## Hive的介紹 ### Hive和Hadoop的關係 1. Hive利用hdfs存儲數據,利用MapReduce查詢數據 2. Hive的數據存儲在hdfs上,簡單的說Hive就是hdfs的簡單一種 ...
  • 基於tauri+vite4+pinia2跨端後臺管理系統應用實例TauriAdmin。 tauri-admin 基於最新跨端技術 Tauri Rust webview2 整合 Vite4 構建桌面端通用後臺管理解決方案。搭載輕量級ve-plus組件庫、支持多視窗切換管理、vue-i18n多語言包、動 ...
  • 數組的32中方法=>{ 1.push(): 在數組末尾添加一個或多個元素,並返回修改後的數組。 let fruits = ['apple', 'banana', 'orange']; fruits.push('mango'); console.log(fruits); // 輸出: ['apple' ...
  • Flutter是Google推出的一個開源的、高性能的移動應用開發框架,可以用一套代碼庫開發Android和iOS應用。Dart則是Flutter所使用的編程語言。讓我們來看看如何搭建Flutter開發環境,並瞭解Dart語言的基礎知識。 ...
  • # flex佈局 ## 上節複習 選擇器進階: 偽類選擇器: 當滿足特定條件時,激活對應的樣式 元素:hover{} 當滑鼠經過元素時,激活樣式 偽元素選擇器: 創建一個虛假的元素.不能被選中.不存在網頁dom中(安全性/性能) 元素::before{content:'內容'} 在元素前面添加內容 ...
  • 1.頁面結構 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title></title> </head> <body> </body> </html> 編碼:charset=“gbk” ;gbk2312,utf-8 註釋:<!-- 註釋內 ...
  • [toc] # 一、爬取目標 您好,我是[@馬哥python說](https://www.zhihu.com/people/13273183132),一名10年程式猿。 本次爬取的目標是:[知乎熱榜](https://www.zhihu.com/hot) ![知乎熱榜頁面](https://img2 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...