[TOC] python是數據分析的主要工具,它包含的數據結構和數據處理工具的設計讓python在數據分析領域變得十分快捷。它以NumPy為基礎,並對於需要類似 for迴圈 的大量數據處理的問題有非常快捷的數組處理函數。 但是pandas最擅長的領域還是在處理表格型二維以上不同數據類型數據。 基本導 ...
目錄
python是數據分析的主要工具,它包含的數據結構和數據處理工具的設計讓python在數據分析領域變得十分快捷。它以NumPy為基礎,並對於需要類似 for迴圈 的大量數據處理的問題有非常快捷的數組處理函數。
但是pandas最擅長的領域還是在處理表格型二維以上不同數據類型數據。
基本導入語法:
import pandas as pd
pandas標記缺失值或NA值為NaN。
有關python語法,數據分析簡介,ipython,jupyter notebook和Numpy在我的CSDN博客: 計科李昂CSDN已經向大家講解了。
一:pandas數據結構介紹
1.Series
Series是一種一維的數組型對象,它包含了一個值序列與數組標簽索引。下麵介紹有關的知識,代碼是示例。
(1)生成Series對象
a = pd.Series() # 括弧里傳入索引對象
(2)獲取值和索引
a.values # 獲取值
a.index # 獲取索引
(3)為序列創建索引序列
b = pd.Series([],index=[]) # 括弧里傳入索引對象和索引序列
(4)通過標簽進行索引
c1['a'] # 普通索引
c2[[]] # 以序列標簽進行索引
(5)使用NumPy的函數或NumPy風格操作
d[conditions] # 布爾值數組(用布爾值選擇條件)進行過濾
d * n # 與標量相乘進行過濾
np.exp(n) # 應用數學函數進行過濾
(6)用in與not in 判斷元素是否在Series對象中。
(7)可以構建字典為Series對象。
(8)可以將其他序列作為某個序列的標簽。沒有對應記為NaN
(9)用isnull與notnull數組函數檢查標簽是否缺失數據。
(10)賦值索引名和對象名
e.name # 賦值對象的名字
e.index # 賦值索引的名字