旋轉門數據壓縮演算法在PostgreSQL中的實現 - 流式壓縮在物聯網、監控、感測器等場景的應用

来源:https://www.cnblogs.com/88223100/archive/2022/11/11/Implementation_of_Rotary_Gate_Data_Compression_Algorithm_in_PostgreSQL.html
-Advertisement-
Play Games

在物聯網、監控、感測器、金融等應用領域,數據在時間維度上流式的產生,而且數據量非常龐大。 例如我們經常看到的性能監控視圖,就是很多點在時間維度上描繪的曲線。 又比如金融行業的走勢數據等等。 我們想象一下,如果每個感測器或指標每100毫秒產生1個點,一天就是864000個點。 而感測器或指標是非... ...


 

 

背景

在物聯網、監控、感測器、金融等應用領域,數據在時間維度上流式的產生,而且數據量非常龐大。

例如我們經常看到的性能監控視圖,就是很多點在時間維度上描繪的曲線。

又比如金融行業的走勢數據等等。

我們想象一下,如果每個感測器或指標每100毫秒產生1個點,一天就是864000個點。

而感測器或指標是非常多的,例如有100萬個感測器或指標,一天的量就接近一億的量。

假設我們要描繪一個時間段的圖形,這麼多的點,渲染估計都要很久。

那麼有沒有好的壓縮演算法,即能保證失真度,又能很好的對數據進行壓縮呢?

旋轉門壓縮演算法原理

旋轉門壓縮演算法(SDT)是一種直線趨勢化壓縮演算法,其本質是通過一條由起點和終點確定的直線代替一系列連續數據點。

該演算法需要記錄每段時間間隔長度、起點數據和終點數據, 前一段的終點數據即為下一段的起點數據。

其基本原理較為簡單, 參見圖。

 

 

 

 

 

 

第一個數據點a上下各有一點,它們與a點之間的距離為E(即門的寬度), 這兩個點作為“門”的兩個支點。

當只有第一個數據點時,兩扇門都是關閉的;隨著點數越來越多,門將逐步打開;註意到每扇門的寬度是可以伸縮的,在一段時間間隔裡面,門一旦打開就不能閉;

只要兩扇門未達到平行,或者說兩個內角之和小於180°(本文的演算法將利用這一點進行判斷),這種“轉門”操作即可繼續進行。

圖中第一個時間段是從a到e, 結果是用a點到e點之間的直線代替數據點(a,b,c,d,e); 起到了可控失真(E)的壓縮作用。

第二個時間間隔從e點開始,開始時兩扇門關閉,然後逐步打開,後續操作與前一段類似。

在PostgreSQL中實現旋轉門壓縮演算法

通過旋轉門演算法的原理,可以瞭解到,有幾個必要的輸入項。

  • 有x坐標和y坐標的點(如果是時間軸上的點,可以通過epoch轉換成這種形式)

  • E,即門的寬度,起到了控制壓縮失真度的作用

例子

創建測試表

create table tbl(id int, -- ID,可有可無
val numeric, -- 值(如感測器或金融行業的點值)
t timestamp  -- 取值時間戳
);

插入10萬條測試數據

 
insert into tbl select generate_series(1,100000), round((random()*100)::numeric, 2), clock_timestamp()+(generate_series(1,100000) || ' second')::interval ; 

test=> select * from tbl limit 10;
 id |  val  |             t              
----+-------+----------------------------
  1 | 31.79 | 2016-08-12 23:22:27.530318
  2 | 18.23 | 2016-08-12 23:22:28.530443
  3 |  5.14 | 2016-08-12 23:22:29.530453
  4 | 90.25 | 2016-08-12 23:22:30.530459
  5 |  8.17 | 2016-08-12 23:22:31.530465
  6 | 97.43 | 2016-08-12 23:22:32.53047
  7 | 17.41 | 2016-08-12 23:22:33.530476
  8 |  0.23 | 2016-08-12 23:22:34.530481
  9 | 84.67 | 2016-08-12 23:22:35.530487
 10 | 16.37 | 2016-08-12 23:22:36.530493
(10 rows)

時間如何轉換成X軸的數值,假設每1秒為X坐標的1個單位

test=> select (extract(epoch from t)-extract(epoch from first_value(t) over())) / 1 as x,  -- 除以1秒為1個單位
val, t from tbl limit 100;
        x         |  val  |             t              
------------------+-------+----------------------------
                0 | 31.79 | 2016-08-12 23:22:27.530318
 1.00012493133545 | 18.23 | 2016-08-12 23:22:28.530443
 2.00013494491577 |  5.14 | 2016-08-12 23:22:29.530453
 3.00014090538025 | 90.25 | 2016-08-12 23:22:30.530459
 4.00014686584473 |  8.17 | 2016-08-12 23:22:31.530465
 5.00015187263489 | 97.43 | 2016-08-12 23:22:32.53047
 6.00015807151794 | 17.41 | 2016-08-12 23:22:33.530476
 7.00016307830811 |  0.23 | 2016-08-12 23:22:34.530481
 8.00016903877258 | 84.67 | 2016-08-12 23:22:35.530487

編寫實現螺旋門演算法的函數

create or replace function f (
  i_radius numeric,       --  壓縮半徑
  i_time timestamp,       --  開始時間
  i_interval_s numeric,   --  時間轉換間隔 (秒,例如每5秒在坐標上表示1個單位間隔,則這裡使用5) 
  query text,             --  需要進行旋轉門壓縮的數據, 例子 'select t, val from tbl where t>=%L order by t limit 100' , select 子句必須固定, 必須按t排序
  OUT o_val numeric,      --  值,縱坐標 y  (跳躍點y)
  OUT o_time timestamp,   --  時間,橫坐標 x (跳躍點x)
  OUT o_x numeric         --  跳躍點x, 通過 o_time 轉換
)
returns setof record as $$
declare
  v_time timestamp;       -- 時間變數
  v_x numeric;            -- v_time 轉換為v_x
  v_val numeric;          -- y坐標
  v1_time timestamp;      -- 前一點 時間變數
  v1_x numeric;           -- 前一點 v_time 轉換為v_x
  v1_val numeric;         -- 前一點 y坐標
  v_start_time numeric;   -- 記錄第一條的時間坐標, 用於計算x偏移量
  v_rownum int8 := 0;     -- 用於標記是否第一行
  v_max_angle1 numeric;   -- 最大上門夾角角度
  v_max_angle2 numeric;   -- 最大下門夾角角度
  v_angle1 numeric;       -- 上門夾角角度
  v_angle2 numeric;       -- 下門夾角角度
begin
  for v_time , v_val in execute format(query, i_time) 
  LOOP
    -- 第一行,第一個點,是實際要記錄的點位
    v_rownum := v_rownum + 1;
    if v_rownum=1 then 
      v_start_time := extract(epoch from v_time);  
      v_x := 0;  
      o_val := v_val;  
      o_time := v_time;  
      o_x := v_x;  
      -- raise notice 'rownum=1 %, %', o_val,o_time;
      return next;  -- 返回第一個點  
    else
      v_x := (extract(epoch from v_time) - v_start_time) / i_interval_s;  -- 生成X坐標
      SELECT 180-ST_Azimuth(
                              ST_MakePoint(o_x, o_val+i_radius),    -- 門上點
                              ST_MakePoint(v_x, v_val)              -- next point
                           )/(2*pi())*360 as degAz,                 -- 上夾角
                 ST_Azimuth(
                              ST_MakePoint(o_x, o_val-i_radius),    -- 門下點
                              ST_MakePoint(v_x, v_val)              -- next point
                           )/(2*pi())*360 As degAzrev               -- 下夾角
      INTO v_angle1, v_angle2; 

      select GREATEST(v_angle1, v_max_angle1), GREATEST(v_angle2, v_max_angle2) into v_max_angle1, v_max_angle2;

      if (v_max_angle1 + v_max_angle2) >= 180 then  -- 找到四邊形外的點位,輸出上一個點,並從上一個點開始重新計算四邊形
        -- raise notice 'max1 %, max2 %', v_max_angle1 , v_max_angle2;
        -- 複原
        v_angle1 := 0;
        v_max_angle1 := 0;
        v_angle2 := 0;
        v_max_angle2 := 0;

        -- 門已完全打開,輸出前一個點的值
        o_val := v1_val; 
        o_time := v1_time; 
        v1_x := (extract(epoch from v1_time) - v_start_time) / i_interval_s;  -- 生成前一個點的X坐標 
        o_x := v1_x; 

        -- 用新的門,與當前點計算新的夾角 
        SELECT 180-ST_Azimuth(
                                ST_MakePoint(o_x, o_val+i_radius),    -- 門上點
                                ST_MakePoint(v_x, v_val)              -- next point
                             )/(2*pi())*360 as degAz,                 -- 上夾角
                   ST_Azimuth(
                                ST_MakePoint(o_x, o_val-i_radius),    -- 門下點
                                ST_MakePoint(v_x, v_val)              -- next point
                             )/(2*pi())*360 As degAzrev               -- 下夾角
        INTO v_angle1, v_angle2;

        select GREATEST(v_angle1, v_max_angle1), GREATEST(v_angle2, v_max_angle2) into v_max_angle1, v_max_angle2; 

        -- raise notice 'new max %, new max %', v_max_angle1 , v_max_angle2;

        -- raise notice 'rownum<>1 %, %', o_val, o_time;

        return next;
      end if; 

      -- 記錄當前值,保存作為下一個點的前點
      v1_val := v_val; 
      v1_time := v_time; 
    end if; 
  END LOOP; 
end; 
$$ language plpgsql strict;

壓縮測試

門寬為15,起始時間為'2016-08-12 23:22:27.530318',每1秒錶示1個X坐標單位。

test=> 
select * from f (
  15, -- 門寬度=15
  '2016-08-12 23:22:27.530318', -- 開始時間
  1, -- 時間坐標換算間隔,1秒
  'select t, val from tbl where t>=%L order by t limit 100'  -- query
);

 o_val |           o_time           |       o_x        
-------+----------------------------+------------------
 18.23 | 2016-08-12 23:22:28.530443 |                0
  5.14 | 2016-08-12 23:22:29.530453 | 1.00001287460327
 90.25 | 2016-08-12 23:22:30.530459 | 2.00001883506775
......
 87.90 | 2016-08-12 23:24:01.53098  | 93.0005400180817
 29.94 | 2016-08-12 23:24:02.530985 | 94.0005450248718
 63.53 | 2016-08-12 23:24:03.53099  | 95.0005497932434
 12.25 | 2016-08-12 23:24:04.530996 | 96.0005559921265
 83.21 | 2016-08-12 23:24:05.531001 | 97.0005609989166
(71 rows)

可以看到100個點,壓縮成了71個點。

對比一下原來的100個點的值

test=> select val, t, (extract(epoch from t)-extract(epoch from first_value(t) over()))/1 as x from tbl where t>'2016-08-12 23:22:27.530318' order by t limit 100;
  val  |             t              |        x         
-------+----------------------------+------------------
 18.23 | 2016-08-12 23:22:28.530443 |                0
  5.14 | 2016-08-12 23:22:29.530453 | 1.00001001358032
 90.25 | 2016-08-12 23:22:30.530459 |  2.0000159740448
......
 83.21 | 2016-08-12 23:24:05.531001 | 97.0005581378937
 87.97 | 2016-08-12 23:24:06.531006 | 98.0005631446838
 58.97 | 2016-08-12 23:24:07.531012 | 99.0005691051483
(100 rows)

使用excel繪圖,進行壓縮前後的對比

上面是壓縮後的數據繪圖,下麵是壓縮前的數據繪圖

紅色標記的位置,就是通過旋轉門演算法壓縮掉的數據。

失真度是可控的。

 

 

 

流式壓縮的實現

本文略,其實也很簡單,這個函數改一下,創建一個以數組為輸入參數的函數。

以lambda的方式,實時的從流式輸入的管道取數,並執行即可。

《HTAP資料庫 PostgreSQL 場景與性能測試之 32 - (OLTP) 高吞吐數據進出(堆存、行掃、無需索引) - 閱後即焚(JSON + 函數流式計算)》

《HTAP資料庫 PostgreSQL 場景與性能測試之 31 - (OLTP) 高吞吐數據進出(堆存、行掃、無需索引) - 閱後即焚(讀寫大吞吐並測)》

《HTAP資料庫 PostgreSQL 場景與性能測試之 27 - (OLTP) 物聯網 - FEED日誌, 流式處理 與 閱後即焚 (CTE)》

《在PostgreSQL中實現update | delete limit - CTID掃描實踐 (高效閱後即焚)》

方法1,閱後即焚:

流計算結果表(即有效位點),增加2個欄位:PK於明細表關聯,時間戳代表最後一條記錄。下次閱後即焚從最後一個有效位點開始,從明細表繼續消費。

方法2,直接在明細表上更新狀態(點、當前記錄是否可見)。

其他,所有涉及到中間計算結果的,都可以用類似方法實現:

計算當前記錄時,更新計算結果到當前記錄上(也就是通過直接更新明細表的流計算方法)。如果計算時需要用到上一條或者上若幹條流計算結果,通過遞歸,或者使用UDF調用都很容易得到。

例子

create table 明細表 (
  上報內容欄位定義....,
  中間結果欄位....,
  可見性欄位....
);

也可以寫成聚合函數,在基於PostgreSQL 的流式資料庫pipelineDB中調用,實現流式計算。

http://www.pipelinedb.com/

小結

通過旋轉門演算法,對IT監控、金融、電力、水利等監控、物聯網、等流式數據進行實時的壓縮。

數據不需要從資料庫LOAD出來即可在庫內完成運算和壓縮。

用戶也可以根據實際的需求,進行流式的數據壓縮,同樣數據也不需要從資料庫LOAD出來,在資料庫端即可完成。

PostgreSQL的功能一如既往的強大,好用,快用起來吧。

參考

1. http://baike.baidu.com/view/3478397.htm

2. http://postgis.net/docs/manual-2.2/ST_Azimuth.html

3. https://www.postgresql.org/docs/devel/static/functions-conditional.html

4. http://gis.stackexchange.com/questions/25126/how-to-calculate-the-angle-at-which-two-lines-intersect-in-postgis

5. http://gis.stackexchange.com/questions/668/how-can-i-calculate-the-bearing-between-two-points-in-postgis

6. http://www.pipelinedb.com/

      作者丨digoal  

本文來自博客園,作者:古道輕風,轉載請註明原文鏈接:https://www.cnblogs.com/88223100/p/Implementation_of_Rotary_Gate_Data_Compression_Algorithm_in_PostgreSQL.html


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1 文件結構 每個C/C++程式通常分為兩個文件,頭文件(保存程式的聲明)和定義文件(保持程式的實現)。 頭文件以“.h”為尾碼;C程式的定義文件以“.c”為尾碼,C++程式的定義文件通常以“.cpp”為尾碼(也有一些“.cc”、“.cxx”、“.hpp”為尾碼)。 1.1 版權和版本的聲明 每個頭 ...
  • 前言 大家早好、午好、晚好吖 ❤ ~ 最近,一部名叫《點燃我,溫暖你》得電視劇衝進了大家得視野~ 講述得是肆意張揚的編程天才李峋與勇敢堅韌的少女學霸朱韻從青澀校園到職場拼搏幾經波折,依然攜手前行的成長愛情故事! 其中李峋用代碼做出的紅色跳動的愛心,一下子跳到朱韻的心坎里,同樣也跳到我們的心坎 今天, ...
  • 前後端分離開發,必須解決跨域問題! 跨域:對於 url 如 http://localhost:8080,請求協議、ip 地址、埠號,只要發送請求方和接收請求方的這三個數據中,只要有一個不同,就表示是跨域訪問! AJAX 跨域訪問:用戶訪問 A 網站時所產生的對 B 網站的跨域訪問請求均提交到 A ...
  • 逆向目標 猿人學 - 反混淆刷題平臺 Web 第二題:js 混淆,動態 cookie 目標:提取全部 5 頁發佈日熱度的值,計算所有值的加和 主頁:https://match.yuanrenxue.com/match/2 介面:https://match.yuanrenxue.com/api/mat ...
  • gRPC JSON轉碼 gRPC JSON 轉碼允許瀏覽器應用調用 gRPC 服務,就像它們是使用 JSON 的 RESTful API 一樣。 瀏覽器應用不需要生成 gRPC 客戶端或瞭解 gRPC 的任何信息。 通過使用 HTTP 元數據註釋 .proto 文件,可從 gRPC 服務自動創建 R ...
  • 2022年11月8日.NET 7正式發佈 .NET仍然是最快、最受歡迎、最值得信賴的平臺之一,其龐大的.NET軟體包生態系統包括33萬多個軟體包。 .NET 7為您的應用程式帶來了更高的性能和C# 11/F# 7、.NET MAUI、ASP.NET Core/Blazor、Web APIs、WinF ...
  • 什麼是Path環境變數? 在探討這個問題之前,我們需要瞭解什麼是環境變數。 “環境變數”和“path環境變數”其實是兩個東西,這一點大家一定要區分開,不要混為一談。 “環境變數”是操作系統工作環境設置的一些選項或屬性參數。每個環境變數由變數名和文件路徑組成的,可以設置很多個環境變數。 我們一般使用環 ...
  • AIR32F103CBT6的存儲容量加上206MHz頻率, 跑RTOS才能充分利用它的性能. 關於FreeRTOS的介紹和集成, 網路上已經有不少文章, 可以直接百度搜索查看, 這裡主要介紹一下項目中的FreeRTOS集成步驟和代碼說明. ...
一周排行
    -Advertisement-
    Play Games
  • 前言 在我們開發過程中基本上不可或缺的用到一些敏感機密數據,比如SQL伺服器的連接串或者是OAuth2的Secret等,這些敏感數據在代碼中是不太安全的,我們不應該在源代碼中存儲密碼和其他的敏感數據,一種推薦的方式是通過Asp.Net Core的機密管理器。 機密管理器 在 ASP.NET Core ...
  • 新改進提供的Taurus Rpc 功能,可以簡化微服務間的調用,同時可以不用再手動輸出模塊名稱,或調用路徑,包括負載均衡,這一切,由框架實現並提供了。新的Taurus Rpc 功能,將使得服務間的調用,更加輕鬆、簡約、高效。 ...
  • 順序棧的介面程式 目錄順序棧的介面程式頭文件創建順序棧入棧出棧利用棧將10進位轉16進位數驗證 頭文件 #include <stdio.h> #include <stdbool.h> #include <stdlib.h> 創建順序棧 // 指的是順序棧中的元素的數據類型,用戶可以根據需要進行修改 ...
  • 前言 整理這個官方翻譯的系列,原因是網上大部分的 tomcat 版本比較舊,此版本為 v11 最新的版本。 開源項目 從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎,輕嗅薔薇。 系列文章 web server apache tomcat11-01-官方文檔入門介紹 web serv ...
  • C總結與剖析:關鍵字篇 -- <<C語言深度解剖>> 目錄C總結與剖析:關鍵字篇 -- <<C語言深度解剖>>程式的本質:二進位文件變數1.變數:記憶體上的某個位置開闢的空間2.變數的初始化3.為什麼要有變數4.局部變數與全局變數5.變數的大小由類型決定6.任何一個變數,記憶體賦值都是從低地址開始往高地 ...
  • 如果讓你來做一個有狀態流式應用的故障恢復,你會如何來做呢? 單機和多機會遇到什麼不同的問題? Flink Checkpoint 是做什麼用的?原理是什麼? ...
  • C++ 多級繼承 多級繼承是一種面向對象編程(OOP)特性,允許一個類從多個基類繼承屬性和方法。它使代碼更易於組織和維護,並促進代碼重用。 多級繼承的語法 在 C++ 中,使用 : 符號來指定繼承關係。多級繼承的語法如下: class DerivedClass : public BaseClass1 ...
  • 前言 什麼是SpringCloud? Spring Cloud 是一系列框架的有序集合,它利用 Spring Boot 的開發便利性簡化了分散式系統的開發,比如服務註冊、服務發現、網關、路由、鏈路追蹤等。Spring Cloud 並不是重覆造輪子,而是將市面上開發得比較好的模塊集成進去,進行封裝,從 ...
  • class_template 類模板和函數模板的定義和使用類似,我們已經進行了介紹。有時,有兩個或多個類,其功能是相同的,僅僅是數據類型不同。類模板用於實現類所需數據的類型參數化 template<class NameType, class AgeType> class Person { publi ...
  • 目錄system v IPC簡介共用記憶體需要用到的函數介面shmget函數--獲取對象IDshmat函數--獲得映射空間shmctl函數--釋放資源共用記憶體實現思路註意 system v IPC簡介 消息隊列、共用記憶體和信號量統稱為system v IPC(進程間通信機制),V是羅馬數字5,是UNI ...