python-數據描述與分析(1)

来源:https://www.cnblogs.com/dd0016/archive/2022/10/01/16747580.html
-Advertisement-
Play Games

數據描述與分析 在進行數據分析之前,我們需要做的事情是對數據有初步的瞭解,這個瞭解就涉及對行業的瞭解和對數據本身的敏感程度,通俗來說就是對數據的分佈有大概的理解,此時我們需要工具進行數據的描述,觀測數據的形狀等;而後才是對數據進行建模分析,挖掘數據中隱藏的位置信息。目前在數據描述和簡單分析方面做的比 ...


數據描述與分析

   在進行數據分析之前,我們需要做的事情是對數據有初步的瞭解,這個瞭解就涉及對行業的瞭解和對數據本身的敏感程度,通俗來說就是對數據的分佈有大概的理解,此時我們需要工具進行數據的描述,觀測數據的形狀等;而後才是對數據進行建模分析,挖掘數據中隱藏的位置信息。目前在數據描述和簡單分析方面做的比較好的是Pandas庫。當然,它還需要結合我們之前提到的Numpy,Scipy等科學計算相關庫才能發揮功效。

1.Pandas 數據結構
在進行Pandas相關介紹時我們首先需要知道的是Pandas 的兩個數據結構(即對象)Series 和 DataFrame,這是Pandas的核心結構,掌握了此二者結構和屬性要素,會在具體的數據處理過程中如虎添翼。

1.1 Series 簡介
Series 是一種類似於以為數據的對象,它由兩部分組成,第一部分是一維數據,另外一部分是與此一維數據對應的標簽數據。具體如下:

import pandas as pd
centerSeries =pd.Series(["中國科學院","文獻情報中心","大樓","北四環西路",])
print (centerSeries)
#output:
0     中國科學院
1    文獻情報中心
2        大樓
3     北四環西路
dtype: object

因為我們沒有指定它的標簽數據,而python預設是通過數字排序進行標識,接下來給他添加標示數據,具體如下:

centerSeries =pd.Series(["中國科學院","文獻情報中心","大樓","北四環西路",],index=["a","b","c","d"])
print (centerSeries) #index的size和Series的size必須一樣長,否則報錯
#output:
a     中國科學院
b    文獻情報中心
c        大樓
d     北四環西路
dtype: object

對比之前的預設標識,我們可以看出它由1,2,3,4變成了a,b,c,d。接下來將解釋這樣標識的意義,具體如下:

import pandas as pd
centerSeries =pd.Series(["中國科學院","文獻情報中心","大樓","北四環西路",],index=["a","b","c","d"])
print (centerSeries[0])  #通過一維數組進行獲取數據
print (centerSeries[1])
print (centerSeries["c"])  #通過標識index獲取數據
print (centerSeries["d"])
#output:
中國科學院
文獻情報中心
大樓
北四環西路

另外,我們可以看到通過一維數組格式獲取數據和通過index標識獲取數據都可以,這樣的index就像曾經學過的資料庫中的id列的作用,相當於建立了每個數據的索引。當然,針對Series的操作不只限於此,還有很多需要我們自己去通過“help”查看得到的。

1.2 DataFrame 簡介
DataFrame 是一個表格型的數據結構,它包含有列和行的索引,當然你也可以把它看作是由Series組織成的字典。需要說明的是,DataFrame的每一列中不需要數據類型相同,且它的數據是通過一個或者多個二維塊進行存放,在瞭解DataFrame之前如果讀者對層次化索引有所瞭解,那麼DataFrame 可能相對容易理解,當然如果讀者並不知道何謂層次化索引也沒關係,舉個例子:他類似於常見的excel的表格格式,可將它理解為一張excel表,具體如下:

#簡單的DataFrame 製作
#字典格式的數據
data = {"name":["國科圖","國科圖","文獻情報中心","文獻情報中心"],
        "year":["2012","2013","2014","2015"],
       "local":["北四環西路","北四環西路","北四環西路","北四環西路"],
       "student":["","","",""]}
centerDF = pd.DataFrame(data)
print(centerDF)
#output:
 name  year  local student
0     國科圖  2012  北四環西路       甲
1     國科圖  2013  北四環西路       乙
2  文獻情報中心  2014  北四環西路       丙
3  文獻情報中心  2015  北四環西路       丁
#調整列的順序
data = {"local":["北四環西路","北四環西路","北四環西路","北四環西路"],
"name":["國科圖","國科圖","文獻情報中心","文獻情報中心"],
"year":["2012","2013","2014","2015"],
"student":["","","",""]}
centerDF = pd.DataFrame(data,columns=["year","name","local","student"])
print(centerDF)
#output:   
year    name  local student
0  2012     國科圖  北四環西路       甲
1  2013     國科圖  北四環西路       乙
2  2014  文獻情報中心  北四環西路       丙
3  2015  文獻情報中心  北四環西路       丁
#更改index的預設設置
data = {"name":["國科圖","國科圖","文獻情報中心","文獻情報中心"],
        "year":["2012","2013","2014","2015"],
       "local":["北四環西路","北四環西路","北四環西路","北四環西路"],
       "student":["","","",""]}
centerDF = pd.DataFrame(data,columns=["year","name","local","student"],index=["a","b","c","d"])
print(centerDF)
#output:   
year    name  local student
a  2012     國科圖  北四環西路       甲
b  2013     國科圖  北四環西路       乙
c  2014  文獻情報中心  北四環西路       丙
d  2015  文獻情報中心  北四環西路       丁

既然DataFrame 是行列格式的數據,那麼理所當然可以通過行、列的方式進行數據獲取,按列進行數據據獲取,具體如下:

data = {"name":["國科圖","國科圖","文獻情報中心","文獻情報中心"],
        "year":["2012","2013","2014","2015"],
       "local":["北四環西路","北四環西路","北四環西路","北四環西路"],
       "student":["","","",""]}
centerDF = pd.DataFrame(data,columns=["year","name","local","student"],index=["a","b","c","d"])
print (centerDF["name"])
print (centerDF["student"])
#output:
a       國科圖
b       國科圖
c    文獻情報中心
d    文獻情報中心
Name: name, dtype: object
a    甲
b    乙
c    丙
d    丁
Name: student, dtype: object

另外,可以看出按列進行獲取時他們的index標識是相同的,且每一列是一個Series 對象

按行進行數據獲取,其實是通過index進行操作,具體如下:

data = {"name":["國科圖","國科圖","文獻情報中心","文獻情報中心"],
        "year":["2012","2013","2014","2015"],
       "local":["北四環西路","北四環西路","北四環西路","北四環西路"],
       "student":["","","",""]}
centerDF = pd.DataFrame(data,columns=["year","name","local","student"],index=["a","b","c","d"])
print (centerDF.loc["a"])

#在使用進行DataFrame.ix進行表中的數據塊選擇的時候,會拋出’DataFrame’ object has no attribute ‘ix’,這個是由於在不同的pandas的版本中,DataFrame的相關屬性已過期,已不推薦使用導致的。
#參考代碼先鋒網
#output:
year        2012
name         國科圖
local      北四環西路
student        甲
Name: a, dtype: object

另外,同樣可以看出每一行是一個Series 對象,此時該Series的index其實就是DataFrame 的列名稱,綜上來看,對於一個DataFrame 來說,它是縱橫雙向進行索引,只是每個Series(縱橫)都共用一個索引而已

1.3 利用Pandas載入、保存數據
在進行數據處理時我們首要工作是把數據載入到記憶體中,這一度成為程式編輯的軟肋,但是Pandas包所提供的功能幾乎涵蓋了大多數的數據處理的載入問題,如read_csv、read_ExcelFile

(1)載入csv格式的數據

import pandas as pd
data_csv = pd.read_csv("D:/python_cailiao/test.csv")  #它的預設屬性有sep=","
data_csv
#output:
school institute grades name 0 中國科學院大學 文獻情報中心 15級 田鵬偉
1 中國科學院大學 文獻情報中心 15級 李四 2 中國科學院大學 文獻情報中心 15級 王五 3 中國科學院大學 文獻情報中心 15級 張三
data_csv = pd.read_csv("D:/python_cailiao/test.csv",sep="#")   #更改預設屬性sep="#"
data_csv
#output:
school,institute,grades,name
0    中國科學院大學,文獻情報中心,15級,田鵬偉
1    中國科學院大學,文獻情報中心,15級,李四
2    中國科學院大學,文獻情報中心,15級,王五
3    中國科學院大學,文獻情報中心,15級,張三
data_csv = pd.read_csv("D:/python_cailiao/test.csv",header=None,skiprows=[0])  #不要表頭Header
data_csv
#output:
school    institute    grades    name
0    中國科學院大學    文獻情報中心    15級    田鵬偉
1    中國科學院大學    文獻情報中心    15級    李四
2    中國科學院大學    文獻情報中心    15級    王五
3    中國科學院大學    文獻情報中心    15級    張三
data_csv.columns=["school","institute","grades","name"]
data_csv  #自行添加表頭列
#output:
school    institute    grades    name
0    中國科學院大學    文獻情報中心    15級    田鵬偉
1    中國科學院大學    文獻情報中心    15級    李四
2    中國科學院大學    文獻情報中心    15級    王五
3    中國科學院大學    文獻情報中心    15級    張三

另外,綜上,通過對csv格式的文件進行讀取,我們可以指定讀入的格式(sep=","),也可以指定他的header為空None,最後添加column,而之所以可以後來添加的原因是讀入的csv已經是DataFrame格式對象

(2)保存csv數據



data_csv.loc[1,"name"]="顧老師"
data_csv.to_csv("D:/python_cailiao/save.csv")

(1)載入excel格式的數據



data_excel = pd.read_excel("D:/python_cailiao/excel.xlsx",sheet_name="test")
data_excel


#output:
school    institute    grades    name
0    中國科學院大學    文獻情報中心    15級    田鵬偉
1    中國科學院大學    文獻情報中心    15級    李四
2    中國科學院大學    文獻情報中心    15級    王五
3    中國科學院大學    文獻情報中心    15級    張三
data_excel.loc[1,"name"]="顧立平老師"
data_excel
#output:
school    institute    grades    name
0    中國科學院大學    文獻情報中心    15級    田鵬偉
1    中國科學院大學    文獻情報中心    15級    顧立平老師
2    中國科學院大學    文獻情報中心    15級    王五
3    中國科學院大學    文獻情報中心    15級    張三

(2)保存數據

data_excel.to_excel("D:/python_cailiao/save.xlsx",sheet_name="test")

 

另外,對於excel文件來說同csv格式的處理相差無幾,但是excel文件在處理時需要指定sheetname屬性(讀取和寫入sheet_name)

參考書目:《數據館員的python簡明手冊》


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、crond任務調度 概述: 使用crontab 指令進行定時任務的設置,任務調度是指系統在某個時間端執行的特定任務或程式,例如:病毒掃描,資料庫備份等 基本語法: crontab 【選項】 常用選項: -e編輯crontab定時任務 -l查詢crontab任務 -r刪除當前用戶所有的cronta ...
  • MySQL基本知識 1.資料庫 1.1.創建資料庫 語法: CREATE DATABASE [IF NOT EXISTS] db_name [create_specification[,create_specification]...] create_specification: [DEFAULT] ...
  • #背景 webpack構建過程中的hooks都有什麼呢?除了在網上看一些文章,還可以通過更直接的辦法,結合官方文檔快速讓你進入webpack的hook世界 寫一個入口文件 //index.js const webpack = require("webpack"); const path = requ ...
  • 一、Spring Cloud Stream 在實際的企業開發中,消息中間件是至關重要的組件之一。消息中間件主要解決應用解耦,非同步消息,流量削鋒等問題,實現高性能,高可用,可伸縮和最終一致性架構。不同的中間件其實現方式,內部結構是不一樣的。如常見的RabbitMQ和Kafka,由於這兩個消息中間件的架 ...
  • 技術傳播的價值,不僅僅體現在通過商業化產品和開源項目來縮短我們構建應用的路徑,加速業務的上線速率,也體現在優秀工程師在工作效率提升、產品性能優化和用戶體驗改善等經驗方面的分享,以提高我們的專業能力。本文作者阿裡巴巴技術專家三畫,分享了自己和團隊在畫好架構圖方面的理念和經驗,首發於阿裡內部技術分享平臺... ...
  • 一、引言:什麼是 JSON JSON (Java Script Object Notation) 是一種很常用的數據格式,它常常用在 web 應用程式中。它可以表示結構化的數據。 下麵是常見的 JSON 文件結構 { "name": "Kamishiro Rize", "age": "22", "o ...
  • 如何工作 在某些 Java 虛擬機中,堆的實現截然不同:它更像一個傳送帶,每分配一個新對象,它就向前移動一格。 這意味著對象存儲空間的分配速度特別快。Java 的"堆指針"只是簡單地移動到尚未分配的區域,所以它的效率與 C++ 在棧上分配空間的效率相當 垃圾回收器工作時,一邊回收記憶體,一邊使堆中的對 ...
  • Java基礎之運算符 1.1 運算符介紹 1.1.1 運算符介紹 運算符是一種特殊的符號,用以表示數據的運算、賦值和比較等,運算符可分為: 1)算術運算符 2)賦值運算符 3)關係運算符 [比較運算符] 4)邏輯運算符 5)位運算符 [需要二進位] 6)三元運算符 1.2 算術運算符 1.2.1 介 ...
一周排行
    -Advertisement-
    Play Games
  • 1、預覽地址:http://139.155.137.144:9012 2、qq群:801913255 一、前言 隨著網路的發展,企業對於信息系統數據的保密工作愈發重視,不同身份、角色對於數據的訪問許可權都應該大相徑庭。 列如 1、不同登錄人員對一個數據列表的可見度是不一樣的,如數據列、數據行、數據按鈕 ...
  • 前言 上一篇文章寫瞭如何使用RabbitMQ做個簡單的發送郵件項目,然後評論也是比較多,也是準備去學習一下如何確保RabbitMQ的消息可靠性,但是由於時間原因,先來說說設計模式中的簡單工廠模式吧! 在瞭解簡單工廠模式之前,我們要知道C#是一款面向對象的高級程式語言。它有3大特性,封裝、繼承、多態。 ...
  • Nodify學習 一:介紹與使用 - 可樂_加冰 - 博客園 (cnblogs.com) Nodify學習 二:添加節點 - 可樂_加冰 - 博客園 (cnblogs.com) 介紹 Nodify是一個WPF基於節點的編輯器控制項,其中包含一系列節點、連接和連接器組件,旨在簡化構建基於節點的工具的過程 ...
  • 創建一個webapi項目做測試使用。 創建新控制器,搭建一個基礎框架,包括獲取當天日期、wiki的請求地址等 創建一個Http請求幫助類以及方法,用於獲取指定URL的信息 使用http請求訪問指定url,先運行一下,看看返回的內容。內容如圖右邊所示,實際上是一個Json數據。我們主要解析 大事記 部 ...
  • 最近在不少自媒體上看到有關.NET與C#的資訊與評價,感覺大家對.NET與C#還是不太瞭解,尤其是對2016年6月發佈的跨平臺.NET Core 1.0,更是知之甚少。在考慮一番之後,還是決定寫點東西總結一下,也回顧一下.NET的發展歷史。 首先,你沒看錯,.NET是跨平臺的,可以在Windows、 ...
  • Nodify學習 一:介紹與使用 - 可樂_加冰 - 博客園 (cnblogs.com) Nodify學習 二:添加節點 - 可樂_加冰 - 博客園 (cnblogs.com) 添加節點(nodes) 通過上一篇我們已經創建好了編輯器實例現在我們為編輯器添加一個節點 添加model和viewmode ...
  • 前言 資料庫併發,數據審計和軟刪除一直是數據持久化方面的經典問題。早些時候,這些工作需要手寫複雜的SQL或者通過存儲過程和觸發器實現。手寫複雜SQL對軟體可維護性構成了相當大的挑戰,隨著SQL字數的變多,用到的嵌套和複雜語法增加,可讀性和可維護性的難度是幾何級暴漲。因此如何在實現功能的同時控制這些S ...
  • 類型檢查和轉換:當你需要檢查對象是否為特定類型,並且希望在同一時間內將其轉換為那個類型時,模式匹配提供了一種更簡潔的方式來完成這一任務,避免了使用傳統的as和is操作符後還需要進行額外的null檢查。 複雜條件邏輯:在處理複雜的條件邏輯時,特別是涉及到多個條件和類型的情況下,使用模式匹配可以使代碼更 ...
  • 在日常開發中,我們經常需要和文件打交道,特別是桌面開發,有時候就會需要載入大批量的文件,而且可能還會存在部分文件缺失的情況,那麼如何才能快速的判斷文件是否存在呢?如果處理不當的,且文件數量比較多的時候,可能會造成卡頓等情況,進而影響程式的使用體驗。今天就以一個簡單的小例子,簡述兩種不同的判斷文件是否... ...
  • 前言 資料庫併發,數據審計和軟刪除一直是數據持久化方面的經典問題。早些時候,這些工作需要手寫複雜的SQL或者通過存儲過程和觸發器實現。手寫複雜SQL對軟體可維護性構成了相當大的挑戰,隨著SQL字數的變多,用到的嵌套和複雜語法增加,可讀性和可維護性的難度是幾何級暴漲。因此如何在實現功能的同時控制這些S ...