乾貨分享|袋鼠雲數棧離線開發平臺在小文件治理上的探索實踐之路

来源:https://www.cnblogs.com/DTinsight/archive/2023/03/29/17267999.html
-Advertisement-
Play Games

日常生產中 HDFS 上小文件產生是一個很正常的事情,同時小文件也是 Hadoop 集群運維中的常見挑戰,尤其對於大規模運行的集群來說可謂至關重要。 數據地圖是離線開發產品的基本使用單位,包含全部表和項目的相關信息,可以對錶做相關的許可權管理和脫敏管理操作,以及可以展示對應項目占用情況和其表的占用情況 ...


日常生產中 HDFS 上小文件產生是一個很正常的事情,同時小文件也是 Hadoop 集群運維中的常見挑戰,尤其對於大規模運行的集群來說可謂至關重要。

file

數據地圖離線開發產品的基本使用單位,包含全部表和項目的相關信息,可以對錶做相關的許可權管理和脫敏管理操作,以及可以展示對應項目占用情況和其表的占用情況。數據地圖可以幫助用戶更好地查找、理解和使用數據。

本文將結合兩者,和大家聊聊數據地圖中的小文件治理應該怎麼做。

小文件的危害

小文件通常指文件大小要比 HDFS 塊大小還要小很多的文件,大量的小文件會給 Hadoop 集群的擴展性和性能帶來嚴重的影響。

NameNode 在記憶體中維護整個文件系統的元數據鏡像、用戶 HDFS 的管理,其中每個 HDFS 文件元信息(位置、大小、分塊等)對象約占150位元組,如果小文件過多,會占用大量記憶體,直接影響 NameNode 的性能。相對地,HDFS 讀寫小文件也會更加耗時,因為每次都需要從 NameNode 獲取元信息,並與對應的 DataNode 建立連接。如果 NameNode 在宕機中恢復,也需要更多的時間從元數據文件中載入。

同時,小文件會給 Spark SQL 等查詢引擎造成查詢性能的損耗,大量的數據分片信息以及對應產生的 Task 元信息也會給 Spark Driver 的記憶體造成壓力,帶來單點問題。此外,入庫操作最後的 commit job 操作,在 Spark Driver 端單點做,很容易出現單點的性能問題。

數據地圖中小文件治理的做法

存儲在 HDFS 中的文件被分成塊,然後將這些塊複製到多個電腦中(DataNode),塊的大小預設為128MB,當文件大小為128時,Hadoop 集群的計算效率最高。因此對非分區表按表進行數據文件合併,使表/分區數據文件的大小接近128M,以此進行小文件的優化。

具體到數據地圖中是怎麼做的呢?

離線開發平臺中創建出來的表或者底層表都可以通過數據地圖功能維護,我們每天會定時更新這些表的基本信息進行統一維護管理。

在數據地圖中可以根據文件數量和占用存儲創建相應的治理規則,按照每天每周或每月治理。

file

參數說明

· 規則名稱:新建規則的名稱

· 選擇項目:小文件合併規則生效的項目

· 選擇表:這裡配置的是圈定需要合併的表範圍,判斷條件是 and,例如表的文件數量大於1000並且占用總存儲小於10M時,才會對該表中的文件進行合併操作

· 治理時間:該規則的調度周期,例如每天的凌晨00:00~01:00進行小文件合併,註意如果小文件合併時間到了結束的時間,還沒有合併完成,則會結束當前的合併,等待下次處理

file

根據治理規則查詢出所有符合信息的表,判斷該表是否為分區表。如果為非分區表則對該表進行文件治理,如果為分區表則按照分區進行治理,最後創建治理記錄。

file

每天定時任務觸發,根據告警記錄查詢記錄中滿足條件的表的基本信息狀態。

file

● 小文件合併的具體步驟

1)備份文件

先創建臨時路徑,把文件複製到臨時路徑中去,再創建要合併的臨時文件

file

2)小文件合併

執行 HDFS 的 fileMerge 請求合併文件

file

真正調用 hive-exec 方法處理,判斷是否達到閾值合併文件

file
file

3)將合併的文件覆蓋到原文件中去

判斷如果合併完成,刪除原路徑下的數據,把臨時路徑修改為原來的真實路徑

file

全部處理完成後,查詢 rdos_file_merge_partition 表是否為異常信息列印,若不存在異常信息,更新治理記錄表完成治理,並更新數據地圖中的表信息

file

治理記錄表把握整體的治理成功失敗狀態,分區信息治理信表維護了整個治理記錄哪些表治理失敗的記錄,最後全量返回對應的是失敗或成功狀態。

· 分區信息治理信表:rdos_file_merge_partition

· 治理記錄表:rdos_file_merge_record

最後把表結構放在下麵,有興趣的小伙伴可以自行查看:

CREATE TABLE `rdos_file_merge_partition` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `project_id` int(11) DEFAULT NULL COMMENT '項目id',
  `tenant_id` int(11) DEFAULT NULL COMMENT '租戶id',
  `record_id` int(11) DEFAULT NULL COMMENT '合併記錄id',
  `status` tinyint(1) DEFAULT NULL COMMENT '合併狀態',
  `start_time` datetime DEFAULT NULL COMMENT '開始時間',
  `end_time` datetime DEFAULT NULL COMMENT '結束時間',
  `error_msg` longtext COMMENT '錯誤信息',
  `partition_name` varchar(255) DEFAULT NULL COMMENT '分區名',
  `copy_location` varchar(1024) DEFAULT NULL COMMENT '備份路徑',
  `storage_before` varchar(255) DEFAULT NULL COMMENT '合併前占用存儲',
  `storage_after` varchar(255) DEFAULT NULL COMMENT '合併後占用存儲',
  `file_count_before` int(11) DEFAULT NULL COMMENT '合併前文件數量',
  `file_count_after` int(11) DEFAULT NULL COMMENT '合併後文件數量',
  `gmt_create` datetime DEFAULT NULL COMMENT '創建時間',
  `gmt_modified` datetime DEFAULT NULL COMMENT '修改時間',
  `is_deleted` tinyint(1) DEFAULT '0' COMMENT '是否刪除 0:未刪除,1 :已刪除',
  PRIMARY KEY (`id`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COMMENT='小文件合併分區信息表';

CREATE TABLE `rdos_file_merge_record` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `project_id` int(11) DEFAULT NULL COMMENT '項目id',
  `tenant_id` int(11) DEFAULT NULL COMMENT '租戶id',
  `table_id` int(11) DEFAULT NULL COMMENT '合併hive表id',
  `table_name` varchar(255) DEFAULT NULL COMMENT '表名',
  `rule_id` int(11) DEFAULT NULL COMMENT '小文件合併規則id',
  `location` varchar(1024) DEFAULT NULL COMMENT '存儲位置',
  `status` tinyint(1) DEFAULT NULL COMMENT '合併狀態',
  `error_msg` longtext COMMENT '錯誤信息',
  `start_time` datetime DEFAULT NULL COMMENT '合併開始時間',
  `end_time` datetime DEFAULT NULL COMMENT '合併結束時間',
  `is_partition` tinyint(1) DEFAULT NULL COMMENT '是否是分區表',
  `count_before` int(11) DEFAULT NULL COMMENT '合併前文件數量',
  `count_after` int(11) DEFAULT NULL COMMENT '合併後文件數量',
  `create_user_id` int(11) DEFAULT NULL COMMENT '創建用戶',
  `modify_user_id` int(11) DEFAULT NULL COMMENT '修改人id',
  `gmt_create` datetime DEFAULT NULL COMMENT '創建時間',
  `gmt_modified` datetime DEFAULT NULL COMMENT '修改時間',
  `is_deleted` tinyint(1) DEFAULT '0' COMMENT '是否刪除 0:未刪除, 1:已刪除',
  `plan_time` datetime NOT NULL COMMENT '計劃時間',
  PRIMARY KEY (`id`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COMMENT='小文件合併記錄表';

《數據治理行業實踐白皮書》下載地址:https://fs80.cn/380a4b

想瞭解或咨詢更多有關袋鼠雲大數據產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szbky

同時,歡迎對大數據開源項目有興趣的同學加入「袋鼠雲開源框架釘釘技術qun」,交流最新開源技術信息,qun號碼:30537511,項目地址:https://github.com/DTStack


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 解決辦法 如果最近升級到了 openssh 8.8 版,你會發現連接某些之前連接得好好的伺服器突然無法連接: Unable to negotiate with x.x.x.x port 2222: no matching host key type found. Their offer: ssh-r ...
  • 1. 三值邏輯 1.1. 真 1.1.1. true 1.2. 假 1.2.1. false 1.3. 不確定 1.3.1. unknown 2. 兩種NULL 2.1. 未知”(unknown) 2.1.1. 不知道戴墨鏡的人眼睛是什麼顏色 2.1.2. 雖然現在不知道,但加上某些條件後就可以知道 ...
  • 通過Hbase與Cassandra對比,層次展開瞭解Apache Cassandra特性和使用場景,通過部署但實力和多實例集群進一步理解其運作,最後通過CQL及其客戶端命令工具理解其數據模型和數據類型,通過對鍵空間、表、索引、數據操作熟悉常見CQL語法和使用。 ...
  • 所需準備 1.安裝資料庫實例,如SQLEXPRADV_x64_CHS 2.安裝資料庫管理軟體,如SQL Server Management Studio 操作步驟 1.打開SQL Server Management Studio,使用Windows身份驗證登入。 2.點擊伺服器實例,右鍵屬性->安全 ...
  • Redis資料庫 Redis(Remote Dictionary Server)是一個使用 C 語言編寫的,高性能非關係型的鍵值對資料庫。與傳統資料庫不同的是,Redis 的數據是存在記憶體中的,所以讀寫速度非常快,被廣泛應用於緩存方向。Redis可以將數據寫入磁碟中,保證了數據的安全不丟失,而且Re ...
  • RMAN備份時會記錄每一次備份的狀態信息,例如COMPLETED,FAILED等,但是使用下麵腳本查詢資料庫時,偶爾你會看到有些備份的狀態為COMPLETED WITH WARNINGS SET LINESIZE 1080;COL STATUS FORMAT A9;COL START_TIME FO ...
  • 摘要:智能把控大數據量查詢,防患系統奔潰於未然。 本文分享自華為雲社區《拒絕“爆雷”!GaussDB(for MySQL)新上線了這個功能》,作者:GaussDB 資料庫。 什麼是最大讀取行 一直以來,大數據量查詢是資料庫DBA們調優的重點,DBA們通常十八般武藝輪番上陣以期提升大數據查詢的性能:例 ...
  • 從MySQL 5.5版本開始預設 使用InnoDB作為引擎,它擅長處理事務,具有自動崩潰恢復的特性,在日常開發中使用非常廣泛 下麵是官方的InnoDB引擎架構圖,主要分為記憶體結構和磁碟結構兩大部分。 InnoDB 記憶體結構 1. Buffer Pool Buffer Pool:緩衝池,簡稱BP。其作 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...