聊聊數據壓縮

-Advertisement-

這篇文章主要討論數據壓縮，數據壓縮不僅可以節省存儲空間，還可以提升網路傳輸性能，不同的壓縮演算法有不同的壓縮比和壓縮耗時，我們需要根據項目需求，選擇不同的壓縮演算法。 ...

什麼情況適合使用數據壓縮？

數據壓縮不僅能節省存儲空間，還可以用於提升網路傳輸性能。

通過網路傳輸數據，使用數據壓縮前後，處理的時間會有一些差別：

壓縮前：傳輸未壓縮數據耗時
壓縮後：壓縮耗時+傳輸壓縮數據耗時+解壓耗時

壓縮和解壓縮的操作都是計算密集型操作，非常耗費CPU資源，如果我們的應用處理業務邏輯本身就需要耗費大量的CPU資源，就不太適合再進行壓縮和解壓縮操作。

如果我們的系統瓶頸在於磁碟IO，同時CPU資源又有大量空閑，那麼就非常適合在將數據寫入磁碟前先進行壓縮。

數據壓縮的本質是資源的置換，是一個時間換空間，或者說CPU資源置換存儲資源的操作。

需要選擇什麼壓縮演算法？

壓縮演算法可以分為有損壓縮和無損壓縮，有損壓縮主要用來壓縮音視頻，它在壓縮之後會丟失消息，而無損壓縮的數據，在經過壓縮和解壓縮後，數據是沒有變化的。

目前常用的壓縮演算法包括：ZIP、GZIP、SNAPPY、LZ4等，選擇壓縮演算法時，主要考慮數據的壓縮率和壓縮耗時。一般來說，壓縮率越高的演算法，壓縮耗時也越高。如果對性能要求很高，可以選擇壓縮速度快的演算法，比如LZ4，如果需要更高的壓縮比，可以考慮GZIP演算法。

壓縮樣本對壓縮速度和壓縮比的影響也是比較大的，同樣大小的一段數字和一段新聞的文本，即使是使用相同的壓縮演算法，壓縮率和壓縮時間的差異也是比較大的，所以在選擇壓縮演算法之前，可以先嘗試用我們系統中真正使用的數據做一些測試，這樣可以找到最合適的壓縮演算法。

如何選擇合適的壓縮分段？

大部分壓縮演算法的區別主要在於對數據進行編碼不同，壓縮的流程和壓縮包的結構大致一樣，而在壓縮的過程中，我們需要瞭解如何選擇合適的壓縮分段大小。

在壓縮時，給定的被壓縮數據必須由確定的長度，或者說是有頭有尾的數據，不能是一個無限的流數據。如果要對流數據進行壓縮，也需要把流數據劃分成多個幀，一幀一幀的分段壓縮。

壓縮演算法在開始壓縮之前，一般都需要對被壓縮數據從頭到尾進行一次掃描，掃描的目的是確定如何對數據進行劃分和編碼，一般的原則是重覆次數多、占用空間大的內容，使用儘量短的編碼，這樣壓縮率會更高。

被壓縮的數據長度越大，重碼率會越高，壓縮比也就越高。

分段也不是越大越好，實際上分段大小超過一定長度後，再增加長度對壓縮率的共用就不大了，同時，過大的分段長度，在解壓縮時，會有更多的解壓浪費。

我們需要根據具體的業務場景，選擇合適的壓縮分段，在壓縮率、壓縮速度和解壓浪費之間找到一個合適的平衡。

Kafka如何處理消息壓縮？

Kafka是否開啟消息壓縮，是可以進行配置的，它也支持配置使用哪一種壓縮演算法。

在開啟壓縮時，Kafka選擇一批消息一起壓縮，每一批消息就是一個壓縮分段。使用者也可以通過參數來控制每批消息的大小。

Kafka並不需要在服務端對接收到的批消息進行解壓，而是整批直接存儲，然後將其發送給消費者，由消費者對批消息進行解壓處理。

不在服務端解壓，就不會耗費服務端的CPU資源，同時傳遞消息數據時，真用的傳輸帶寬也會小。

在使用Kafka時，如果生產者和消費者的CPU資源不是特別吃緊，開啟壓縮後，可以節省網路帶寬和服務端的存儲空間，提升總體的吞吐量。

　　　　作者：李潘　　　　出處：http://wing011203.cnblogs.com/ 　　　　本文版權歸作者和博客園共有，歡迎轉載，但未經作者同意必須保留此段聲明，且在文章頁面明顯位置給出原文連接，否則保留追究法律責任的權利。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

uni-app開發跨平臺小程式開發的諸多坑【轉載】

前言在initEvents中發現的有意思的東西，就是 Vue 針對 Error 的處理，說實話之前壓根沒在意過 Vue 是如何收集處理 Error 的； errorHandler：https://v2.cn.vuejs.org/v2/api#errorHandler ?> 從 2.2.0 起，這個 ...
Ajax及其應用

（目錄） Ajax 工作原理 Ajax Ajax 是前後端非同步交互的工具，非同步更新，ajax 包含 XMLHttpRequests 對象（非同步地與伺服器交換數據，AJAX 核心） JavaScript/DOM（信息顯示/交互） CSS（給數據定義樣式） XML 或 JSON（作為轉換數據的格式）工 ...
webgl 系列 —— 繪製貓

其他章節請看： webgl 系列繪製貓上文我們瞭解瞭如何繪製漸變彩色三角形，明白了圖形裝配、光柵化，以及片元著色器計算片元的顏色。現在如果讓你繪製如下一隻貓。難道繪製很多三角形，然後指定它們的顏色？那樣簡直太難、太繁瑣了。這時可以使用三維圖形學中的紋理映射技術來解決這個問題。紋理映射簡單來 ...
記錄--兩行CSS讓頁面提升了近7倍渲染性能

這裡給大家分享我在網上總結出來的一些知識，希望對大家有所幫助前言對於前端人員來講，最令人頭疼的應該就是頁面性能了，當用戶在訪問一個頁面時，總是希望它能夠快速呈現在眼前並且是可交互狀態。如果頁面載入過慢，你的用戶很可能會因此離你而去。所以頁面性能對於前端開發者來說可謂是重中之重，其實你如果瞭解頁面 ...
在京東如何做好前端系統的可觀測性

本文旨在從0到1的講述一下我們團隊在做系統可觀測性過程中所沉澱下來的一整套解決方案，收效甚巨，不敢苟藏，當公之於眾，共建吾輩光明之未來。 ...
TypeScript 學習筆記 — 類型相容（十）

TS 是結構類型系統（structural type system），基於結構/形狀檢查類型，而非類型的名字。 TS 中的相容性，主要看**結構是否相容**。(核心是考慮安全性),結構化的類型系統(又稱鴨子類型檢查),如兩個類型名字不一樣但是無法區分類型相容性是基於結構子類型的。結構類型是一種只 ...
前端設計模式——過濾器模式

前端設計模式中的過濾器模式（Filter Pattern）是一種結構型設計模式，它允許我們使用不同的條件來過濾一組對象，並返回符合條件的對象列表。在過濾器模式中，我們有一個包含多個對象的列表，需要根據一些條件來篩選出符合條件的對象。通常情況下，可以使用多個過濾器來實現這個功能。每個過濾器都是一個獨 ...
帶你看看不一樣的console.log 和BUG調試

本文將使用技術棧 React Three Fiber 和 Cannon.js 來實現一個具有物理特性的乒乓球小游戲，通過本文的閱讀，你將學習到的知識點包括：瞭解什麼是 React Three Fiber 及它的相關生態、使用 React Three Fiber 搭建基礎三維場景、如何使用新技術棧給場... ...