聊聊數據壓縮

来源:https://www.cnblogs.com/wing011203/archive/2023/03/20/17237333.html
-Advertisement-
Play Games

這篇文章主要討論數據壓縮,數據壓縮不僅可以節省存儲空間,還可以提升網路傳輸性能,不同的壓縮演算法有不同的壓縮比和壓縮耗時,我們需要根據項目需求,選擇不同的壓縮演算法。 ...


什麼情況適合使用數據壓縮?

數據壓縮不僅能節省存儲空間,還可以用於提升網路傳輸性能。

通過網路傳輸數據,使用數據壓縮前後,處理的時間會有一些差別:

  • 壓縮前:傳輸未壓縮數據耗時
  • 壓縮後:壓縮耗時+傳輸壓縮數據耗時+解壓耗時

壓縮和解壓縮的操作都是計算密集型操作,非常耗費CPU資源,如果我們的應用處理業務邏輯本身就需要耗費大量的CPU資源,就不太適合再進行壓縮和解壓縮操作。

如果我們的系統瓶頸在於磁碟IO,同時CPU資源又有大量空閑,那麼就非常適合在將數據寫入磁碟前先進行壓縮。

數據壓縮的本質是資源的置換,是一個時間換空間,或者說CPU資源置換存儲資源的操作。

需要選擇什麼壓縮演算法?

壓縮演算法可以分為有損壓縮和無損壓縮,有損壓縮主要用來壓縮音視頻,它在壓縮之後會丟失消息,而無損壓縮的數據,在經過壓縮和解壓縮後,數據是沒有變化的。

目前常用的壓縮演算法包括:ZIP、GZIP、SNAPPY、LZ4等,選擇壓縮演算法時,主要考慮數據的壓縮率和壓縮耗時。一般來說,壓縮率越高的演算法,壓縮耗時也越高。如果對性能要求很高,可以選擇壓縮速度快的演算法,比如LZ4,如果需要更高的壓縮比,可以考慮GZIP演算法。

壓縮樣本對壓縮速度和壓縮比的影響也是比較大的,同樣大小的一段數字和一段新聞的文本,即使是使用相同的壓縮演算法,壓縮率和壓縮時間的差異也是比較大的,所以在選擇壓縮演算法之前,可以先嘗試用我們系統中真正使用的數據做一些測試,這樣可以找到最合適的壓縮演算法。

如何選擇合適的壓縮分段?

大部分壓縮演算法的區別主要在於對數據進行編碼不同,壓縮的流程和壓縮包的結構大致一樣,而在壓縮的過程中,我們需要瞭解如何選擇合適的壓縮分段大小。

在壓縮時,給定的被壓縮數據必須由確定的長度,或者說是有頭有尾的數據,不能是一個無限的流數據。如果要對流數據進行壓縮,也需要把流數據劃分成多個幀,一幀一幀的分段壓縮。

壓縮演算法在開始壓縮之前,一般都需要對被壓縮數據從頭到尾進行一次掃描,掃描的目的是確定如何對數據進行劃分和編碼,一般的原則是重覆次數多、占用空間大的內容,使用儘量短的編碼,這樣壓縮率會更高。

被壓縮的數據長度越大,重碼率會越高,壓縮比也就越高。

分段也不是越大越好,實際上分段大小超過一定長度後,再增加長度對壓縮率的共用就不大了,同時,過大的分段長度,在解壓縮時,會有更多的解壓浪費。

我們需要根據具體的業務場景,選擇合適的壓縮分段,在壓縮率、壓縮速度和解壓浪費之間找到一個合適的平衡。

Kafka如何處理消息壓縮?

Kafka是否開啟消息壓縮,是可以進行配置的,它也支持配置使用哪一種壓縮演算法。

在開啟壓縮時,Kafka選擇一批消息一起壓縮,每一批消息就是一個壓縮分段。使用者也可以通過參數來控制每批消息的大小。

Kafka並不需要在服務端對接收到的批消息進行解壓,而是整批直接存儲,然後將其發送給消費者,由消費者對批消息進行解壓處理。

不在服務端解壓,就不會耗費服務端的CPU資源,同時傳遞消息數據時,真用的傳輸帶寬也會小。

在使用Kafka時,如果生產者和消費者的CPU資源不是特別吃緊,開啟壓縮後,可以節省網路帶寬和服務端的存儲空間,提升總體的吞吐量。

    作者:李潘     出處:http://wing011203.cnblogs.com/     本文版權歸作者和博客園共有,歡迎轉載,但未經作者同意必須保留此段聲明,且在文章頁面明顯位置給出原文連接,否則保留追究法律責任的權利。
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 前言 在initEvents中發現的有意思的東西,就是 Vue 針對 Error 的處理,說實話之前壓根沒在意過 Vue 是如何收集處理 Error 的; errorHandler:https://v2.cn.vuejs.org/v2/api#errorHandler ?> 從 2.2.0 起,這個 ...
  • (目錄) Ajax 工作原理 Ajax Ajax 是前後端非同步交互的工具,非同步更新,ajax 包含 XMLHttpRequests 對象(非同步地與伺服器交換數據,AJAX 核心) JavaScript/DOM(信息顯示/交互) CSS(給數據定義樣式) XML 或 JSON(作為轉換數據的格式) 工 ...
  • 其他章節請看: webgl 系列 繪製貓 上文我們瞭解瞭如何繪製漸變彩色三角形,明白了圖形裝配、光柵化,以及片元著色器計算片元的顏色。 現在如果讓你繪製如下一隻貓。難道繪製很多三角形,然後指定它們的顏色?那樣簡直太難、太繁瑣了。 這時可以使用三維圖形學中的紋理映射技術來解決這個問題。 紋理映射簡單來 ...
  • 這裡給大家分享我在網上總結出來的一些知識,希望對大家有所幫助 前言 對於前端人員來講,最令人頭疼的應該就是頁面性能了,當用戶在訪問一個頁面時,總是希望它能夠快速呈現在眼前並且是可交互狀態。如果頁面載入過慢,你的用戶很可能會因此離你而去。所以頁面性能對於前端開發者來說可謂是重中之重,其實你如果瞭解頁面 ...
  • 本文旨在從0到1的講述一下我們團隊在做系統可觀測性過程中所沉澱下來的一整套解決方案,收效甚巨,不敢苟藏,當公之於眾,共建吾輩光明之未來。 ...
  • TS 是結構類型系統(structural type system),基於結構/形狀檢查類型,而非類型的名字。 TS 中的相容性,主要看**結構是否相容**。(核心是考慮安全性),結構化的類型系統(又稱鴨子類型檢查),如兩個類型名字不一樣但是無法區分 類型相容性是基於結構子類型的。 結構類型是一種只 ...
  • 前端設計模式中的過濾器模式(Filter Pattern)是一種結構型設計模式,它允許我們使用不同的條件來過濾一組對象,並返回符合條件的對象列表。 在過濾器模式中,我們有一個包含多個對象的列表,需要根據一些條件來篩選出符合條件的對象。通常情況下,可以使用多個過濾器來實現這個功能。每個過濾器都是一個獨 ...
  • 本文將使用技術棧 React Three Fiber 和 Cannon.js 來實現一個具有物理特性的乒乓球小游戲,通過本文的閱讀,你將學習到的知識點包括:瞭解什麼是 React Three Fiber 及它的相關生態、使用 React Three Fiber 搭建基礎三維場景、如何使用新技術棧給場... ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...