Python數據分析_Pandas_窗函數

来源:https://www.cnblogs.com/jingsupo/archive/2018/03/22/python-pandas-rolling.html
-Advertisement-
Play Games

窗函數(window function)經常用在頻域信號分析中。我其實不咋個懂,大概是從無限長的信號中截一段出來,然後把這一段做延拓變成一個虛擬的無限長的信號。用來截取的函數就叫窗函數,窗函數又分很多種,什麼矩形窗、三角窗、高斯窗。 在scipy.signal中有各種我不懂的實現窗函數的方法。瀏覽了 ...


窗函數(window function)經常用在頻域信號分析中。我其實不咋個懂,大概是從無限長的信號中截一段出來,然後把這一段做延拓變成一個虛擬的無限長的信號。用來截取的函數就叫窗函數,窗函數又分很多種,什麼矩形窗、三角窗、高斯窗。

scipy.signal中有各種我不懂的實現窗函數的方法。瀏覽了一下,頭疼的緊。

那在pandas中也有實現窗函數的方法:rolling()。我呢就不折騰什麼信號處理的東西,用金融數據做個小示例好了。

金融時間序列也是一種時間序列數據,前後次序是固定,多為二維數據。例如要看一隻股票的平均移動線,就會用到rolling()

先介紹一下這個翻滾函數

DataFrame.rolling(window, 
                  min_periods=None, 
                  freq=None, 
                  center=False, 
                  win_type=None, 
                  on=None, 
                  axis=0)
  • window: 移動視窗的大小。值可以是int(整數值)或offset(偏移)。如果是整數值的話,每個視窗是固定的大小,即包含相同數量的觀測值。值為offset(偏移時長,eg:'2s')則指定了每個視窗包含的時間段,每個視窗包含的觀測值的數量是不一定的。offset必須在index是時間類型數據時才可以使用。

  • min_periods: 每個視窗最少包含的觀測值數量,小於這個值的視窗結果為NA。值可以是int,預設None。offset情況下,預設為1。

  • freq: 棄用。不用管它。

  • center: 把視窗的標簽設置為居中。布爾型,預設False,居右。

  • win_type: 視窗的類型。上面介紹的,截取窗的各種函數。字元串類型,預設為None。可用的視窗類型有:

    • boxcar
    • triang
    • blackman
    • hamming
    • bartlett
    • parzen
    • bohman
    • blackmanharris
    • nuttall
    • barthann
    • kaiser (needs beta)
    • gaussian (needs std)
    • general_gaussian (needs power, width)
    • slepian (needs width)
  • on: 可選參數。對於dataframe而言,指定要計算滾動視窗的列。值為列名。

  • axis: int、字元串,預設為0,即對列進行計算。

使用方法,例:

In []: df = pd.DataFrame({'B': [0, 1, 2, np.nan, 4]})

In []: df.rolling(2).sum()
Out[]:
     B
0  NaN
1  1.0
2  3.0
3  NaN
4  NaN

按tab鍵可以查看rolling對象可用的方法,如下:

In []: r = df.rolling(2)
In []: r
Out[]: Rolling [window=10,center=False,axis=0]

In []: r.
   r.agg             r.cov             r.max             r.ndim
   r.aggregate       r.exclusions      r.mean            r.quantile
   r.apply           r.is_datetimelike r.median          r.skew
   r.corr            r.is_freq_type    r.min             r.std
   r.count           r.kurt            r.name            r.sum

註:rolling_mean()這種寫法已經淘汰了,現在都是df.rolling().mean()df.rolling().std()這樣來寫。

例:計算蘋果收盤價的平均移動線

獲取數據

從雅虎獲取蘋果公司2016年1月1日至今的股票數據。

import pandas_datareader.data as web

apple = web.DataReader(name='AAPL', 
                       data_source='yahoo', 
                       start='2016-1-1')
print(apple.head())

數據大概是這個樣子的:

                  Open        High         Low       Close    Volume  \
Date
2016-01-04  102.610001  105.370003  102.000000  105.349998  67649400
2016-01-05  105.750000  105.849998  102.410004  102.709999  55791000
2016-01-06  100.559998  102.370003   99.870003  100.699997  68457400
2016-01-07   98.680000  100.129997   96.430000   96.449997  81094400
2016-01-08   98.550003   99.110001   96.760002   96.959999  70798000

             Adj Close
Date
2016-01-04  103.057063
2016-01-05  100.474523
2016-01-06   98.508268
2016-01-07   94.350769
2016-01-08   94.849671

收盤價的折線圖

為了方便觀察滾完了之後的效果,我們把數據都畫圖呈現出來。

apple['Close'].plot(figsize=(9, 5), grid=True)
plt.show()
  收盤價

平均移動線MA

apple['roll_mean'] = apple['Close'].rolling(window=5).mean()
apple[['Close', 'roll_mean']].plot(subplots=True, figsize=(9, 5), grid=True)
plt.show()
  收盤價和5日平均移動線

這裡視窗大小為5,所以前面四個數據是沒有值的。把它們合在一起看看(把subplots改為False)。

  收盤價和5日平均移動線合在一起

拉近一點:

   

直觀上看更平滑了。畢竟取五天做平均了,第一天漲第二天跌的這種一平均波動就小了。如果視窗變大會更平滑。

windowsize = [5,10,20]
for i in windowsize:
    apple['roll_mean_'+str(i)] = apple['Close'].rolling(i).mean()
apple[['roll_mean_5','roll_mean_10','roll_mean_20']].plot(figsize=(9, 5), grid=True)
plt.show()
   

補充

除了算平均值,還可以計算方差、相關、最大最小值等等,大部分的統計量都可以計算,就看你需要了。

另外如果已有的函數不能滿足需要,我們還可以用lambdaapply()寫自己的方法。

例如(直接複製官網的咯):

mad = lambda x: np.fabs(x - x.mean()).mean()
apple['Close'].rolling(window=5).apply(mad).plot(figsize=(9, 5), grid=True)
plt.show()

這裡計算的是平均絕對偏差。

   

我的圖長得漂亮是因為安裝了seaborn庫,畫圖之前悄悄載入了一下。

另外,pandas中也有好些金融函數,比如計算指數加權移動平均,就現成的pandas.ewma()。待挖掘的東西好多呢。



作者:ChZ_CC
鏈接:https://www.jianshu.com/p/f6e489de57f7
來源:簡書
著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • python數據類型、數字類型、int、float、math ...
  • selenium安裝 selenium操作瀏覽器原理 早期selenium 1.0 用的selenium RC, 後來selenum2集合了selenium1.0 + webdriver,selenium RC被webdriver替換。通過webdriver,測試腳本(例如python)可以方便的通 ...
  • 事務管理對於企業應用來說是至關重要的,當出現異常情況時,它也可以保證數據的一致性。 Spring事務管理的兩種方式 spring支持編程式事務管理和聲明式事務管理兩種方式。 編程式事務 使用TransactionTemplate或者直接使用底層的PlatformTransactionManager。 ...
  • Description In last winter, there was a big snow storm in South China. The electric system was damaged seriously. Lots of power lines were broken and ...
  • 數組 數組是一系列相同類型元素有序的集合。 數組的定義: 一般形式為: 類型符 數組名 [常量表達式] 如 int a[5]; 表示數組有五個元素,a[0]-a[5],不存在元素a[5]。 *註意: 1.常量表達式中可以包含常量和符號常量,如“int a[3+5];" 2.c語言不允許對數組的大小作 ...
  • Jar包使用,及層的劃分 c3p0-config.xml JDBCUtils dao Service client ...
  • 匹配電話號碼: 把正則表達式,編程成一個對象,可以提高匹配效率 可以通過編譯成對象,傳參(re.I),把匹配方式改成忽略大小 match,匹配到的字元是否在 被匹配字元串的開頭,如果是,返回一個對象. search:存在就返回對象 finditer返回一個迭代器,findall返回的是列表 grou ...
  • 需要導入的hibernate的包 其中所需要的依賴包 需要的配置文件 一個是元數據orm的配置文件 例如 當前一個Customer對象 需要建立他相應的xml文件 接下啦是hibernate的主配置文件最重要的該文件的文件名字必須是hibernate.cfg.xml,同時在src的目錄 代碼的增刪改 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...