python數據分析實踐總結_ZenDei技術網路在線

python數據分析實踐總結

-Advertisement-

> “我的懲罰是什麼？”伊薩克問艾爾曼。 “孤寂。”艾爾曼回答道。 ## 引言：在近日的python數據分析實戰課中，我學習到使用python進行數據分析的流程、方法，對常使用的函數有一些認識和瞭解，對 numpy, pandas 包有了一定的理解但不深。這篇博客將是我自己用於總結歸納的聖地，我 ...

“我的懲罰是什麼？”伊薩克問艾爾曼。
“孤寂。”艾爾曼回答道。

引言：

在近日的python數據分析實戰課中，我學習到使用python進行數據分析的流程、方法，對常使用的函數有一些認識和瞭解，對 numpy, pandas 包有了一定的理解但不深。
這篇博客將是我自己用於總結歸納的聖地，我將對整個項目的 key point 進行歸納總結，提取其中精華之所在，汲取之加以奮發向前。

一、分析數據文件：

在拿到數據的第一刻，莫急，先打開數據文件看一看，明白文件里的數據能夠說明什麼。於是乎我們得以提出分析的目標，並開始思索如何能夠實現我們的目的。例如，我們手裡有一份某電商平臺一年的營銷數據，這份數據中包含了達成交易訂單的用戶ID、本次訂單對應的商品數量、總價、時間，思考：我們可以利用這些數據得到哪些結論？——從時間維度：分析不同月份的營銷額；從客戶維度：分析回購率、復購率、新老用戶比例。根據得出的結論，我們得以制定相應的策略來提高商家的盈利。

二、數據預處理：

提一嘴，在文件最開始導入包的時候輸入 plt.rcParams['font.sans-serif'] = 'SimHei' 以讓中文能夠正常顯示（IPython中如此）

首先讀取文件，利用 pandas 根據不同文件類型選擇不同的讀取函數：

csv: pd.read_csv('name.csv', encoding='utf-8/GBK')
text: pd.read_table('name.txt', names=columns, sep='\s+') # names指定每一列數據的含義，sep是劃分數據時的參考，\s+表示跳過任意多的空格
excel: pd.read_excel('name.xlsx')

接著進行數據的預處理：

對於出現NAN的行或列且需要刪除的：data.dropna(axis=0, how='any', inplace=True) # 刪除帶有NAN的一整行數據，並修改原值
對於重覆出現的行或列：data.drop_duplicates(axis=0, inplace=True) # 刪除重覆的行，並修改原值
對於無用的行或列：data.drop(columns='order_id', axis=1, inplace=True) # 刪除 order_id 這一列
對於需要更新索引的數據：data.reset_index(drop=True, inplace=True) 把原來的索引index列刪除，並更新index
對於單位不統一的數據：如下圖

看到銷售金額一列的單位有元也有萬元，並且含有逗號，為了方便處理，我們將其格式化。

def data_deal(number):
    if number.find('萬元')!= -1:#找到帶有萬元的，取出數字，去掉逗號，轉成float，*10000
        number_new = float(number[:number.find('萬元')].replace(',',''))*10000
    else: # 找到帶有元的並處理
        number_new = float(number[:number.find('元')].replace(',',''))
    return number_new
data['銷售金額'] = data['銷售金額'].map(data_deal)

這裡我們使用到了 Series.map() 函數，該函數的作用與 apply 和 applymap 類似，接收一個函數或含有映射關係的字典型對象，區別如下：

apply:作用於dataframe的整行或整列
applymap:作用於dataframe的每一個元素
map:作用於series中的每一個元素，在df結構中無法使用map函數

詳情：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.map.html?highlight=map#pandas.Series.map

Time:2023年7月13日23:22:21

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

2023 Hive 面試大綱

總結一下Hive面試寶典中的要點，方便讀者快速過一遍Hive面試所需要的知識點。本文請搭配 2023 Hive 面試寶典來食用更美味喲 ...
2023 Hive 面試寶典

#### 先說一些廢話總結一下Hive面試寶典，方便讀者快速過一遍Hive面試所需要的知識點 ## Hive的介紹 ### Hive和Hadoop的關係 1. Hive利用hdfs存儲數據，利用MapReduce查詢數據 2. Hive的數據存儲在hdfs上，簡單的說Hive就是hdfs的簡單一種 ...
Tauri-Admin通用後臺管理系統|tauri+vue3+pinia桌面端後臺EXE

基於tauri+vite4+pinia2跨端後臺管理系統應用實例TauriAdmin。 tauri-admin 基於最新跨端技術 Tauri Rust webview2 整合 Vite4 構建桌面端通用後臺管理解決方案。搭載輕量級ve-plus組件庫、支持多視窗切換管理、vue-i18n多語言包、動 ...
js中數組的方法,32種方法

數組的32中方法=>{ 1.push(): 在數組末尾添加一個或多個元素，並返回修改後的數組。 let fruits = ['apple', 'banana', 'orange']; fruits.push('mango'); console.log(fruits); // 輸出: ['apple' ...
Flutter系列文章-Flutter環境搭建和Dart基礎

Flutter是Google推出的一個開源的、高性能的移動應用開發框架，可以用一套代碼庫開發Android和iOS應用。Dart則是Flutter所使用的編程語言。讓我們來看看如何搭建Flutter開發環境，並瞭解Dart語言的基礎知識。 ...
一篇帶你瞭解進階選擇器、浮動佈局、定位佈局與流式佈局

# flex佈局 ## 上節複習選擇器進階: 偽類選擇器: 當滿足特定條件時,激活對應的樣式元素:hover{} 當滑鼠經過元素時,激活樣式偽元素選擇器: 創建一個虛假的元素.不能被選中.不存在網頁dom中(安全性/性能) 元素::before{content:'內容'} 在元素前面添加內容 ...
import-local執行流程與node模塊路徑解析流程

1.頁面結構 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title></title> </head> <body> </body> </html> 編碼：charset=“gbk” ；gbk2312，utf-8 註釋：<!-- 註釋內 ...
一文瞭解io.ReadAtLeast函數

[toc] # 一、爬取目標您好，我是[@馬哥python說](https://www.zhihu.com/people/13273183132)，一名10年程式猿。本次爬取的目標是：[知乎熱榜](https://www.zhihu.com/hot) ![知乎熱榜頁面](https://img2 ...