大文件上傳功能在標簽服務的簡單應用和代碼實現

-Advertisement-

各位看官大家好，今天給大家分享的又是一篇實戰文章，希望大家能夠喜歡。目前「[袋鼠雲客戶數據洞察平臺](https://www.dtstack.com/easydigit/userinsight?src=szsm)」標簽服務的群組按種類劃分，可以分為三大類，分別是實時群組、[動態群組](https: ...

各位看官大家好，今天給大家分享的又是一篇實戰文章，希望大家能夠喜歡。

目前「袋鼠雲客戶數據洞察平臺」標簽服務的群組按種類劃分，可以分為三大類，分別是實時群組、動態群組以及靜態群組。如果按創建方式劃分則有兩種，分別是通過圈群的方式創建以及通過上傳本地文件進行維度匹配的方式創建得到本地群組，其中本地群組屬於靜態群組。

除了本地群組外的其他群組目前都是採用圈群的方式生成匹配 SQL，然後執行相應的 SQL 得到相應查詢維度的數據併入庫到群組表，這種方式比較方便，可以快速得到一個用戶期望的群組。

file

但是有那麼一種場景，假設想要設置的條件很分散，通過圈群配置的時候比較複雜，那麼只能通過上傳文件的方式進行匹配，這就需要用戶上傳本地文件，通過指定匹配維度的方式來生成本地群組。

file

如果用戶上傳的本地文件很小，那麼比較簡單，按單個文件直接上傳解析即可。如果用戶上傳的文件很大，有50M，那麼就需要採用分片的方式進行上傳，本文和大家分享一下這兩種文件上傳的代碼實現。

小文件上傳的實現

小文件上傳的主要流程包括將文件上傳到伺服器，並獲得文件的編碼格式，文件上傳完畢後，非同步解析文件並得到本地群組。

將文件上傳到 HDFS 並保存原始文件到 SFTP，上傳到 HDFS 之後，通過 SQL 來與實體對應的大寬表進行數據匹配，最終生成本地群組。

file

小文件直接上傳即可，代碼如下，上傳完成後，獲取文件的編碼格式，用於後續的文件解析。

file

大文件上傳的實現

前端將大文件按指定大小分片，並計算原始文件的 md5 和每個分片文件的 md5，分別用於文件校驗以及分片文件斷點續傳。介面入參代碼設計如下：

file

大文件分片實現部分核心代碼如下：

file

分片文件重新在伺服器整合為一個大文件的整體代碼如下：

file
file

單個分片的數據接收並寫入代碼如下：

file

當檢測到上傳的文件是最後一個分片文件的時候，待分片數據寫入完成後，需要對伺服器上的文件進行 md5 校驗來保證文件數據的一致性。

當文件上傳到伺服器完成後，需要將文件上傳到 HDFS 以及SFTP，代碼如下：

file
file

最終得到的本地群組如下：

file
file

《數棧產品白皮書》：https://www.dtstack.com/resources/1004?src=szsm

《數據治理行業實踐白皮書》下載地址：https://www.dtstack.com/resources/1001?src=szsm

想瞭解或咨詢更多有關袋鼠雲大數據產品、行業解決方案、客戶案例的朋友，瀏覽袋鼠雲官網：https://www.dtstack.com/?src=szbky

同時，歡迎對大數據開源項目有興趣的同學加入「袋鼠雲開源框架釘釘技術qun」，交流最新開源技術信息，qun號碼：30537511，項目地址：https://github.com/DTStack

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

微控制器實時操作系統實踐5選擇IDE

# ssh免密登錄、伺服器安全 ## ssh免密登錄 > 1. 客戶端本地生成一對公鑰 > > ``` > ssh-keygen -t rsa > ``` > > 2. 客戶端發送自己的公鑰，發給伺服器，存在伺服器的authorized_keys文件中 > > ``` > ssh-copy-id r ...
機器硬體監控，最簡單的方案，沒有之一

之前新東方的老師分享了他們通過 Telegraf、Loki、Nightingale 等工具來監控機器硬體狀態的方案，具備很強的靈活性、平臺性。本文會介紹一個相對輕量的方式，只需要一個二進位+一個腳本即可搞定，給各位朋友提供一種新的選擇 ...
FTL沒有映射，跟發工資沒有錢有什麼區別

# DNS功能變數名稱解析 ## 1、nslookup > 通過nslookup命令查看功能變數名稱的解析關係 > > 1.該命令需要單獨安裝dns的套件軟體包 > > yum install bind-utils -y > > 2.使用nslookup命令 > > nslookup > > www.baidu.c ...
linux-NFS遠程掛載

# NFS遠程掛載 ## 一、概述 > NFS是一種基於TCP/IP 傳輸的網路文件系統協議。通過使用NFS協議，客戶機可以像訪問本地目錄一樣訪問遠程伺服器中的共用資源 > NAS存儲: NFS服務的實現依賴於RPC (Remote Process Call，遠端過程調用)機制，以完成遠程到本地的映 ...
【後端面經-資料庫】MySQL的事務隔離級別簡介

[TOC](【後端面經-資料庫】MySQL的事務隔離級別簡介) ## 0. 事務的概念事務指的是一連串的集中操作指令，一個事務的執行必須執行完所有的動作才能算作執行結束。事務具有四個特點，簡記作`ACID`： - `A`-Atomicity: 原子性，事務的執行必須保證所有的動作都執行完畢； - ...
Hive常見時間日期函數的使用與問題整理

hive本身提供的時間函數已經很豐富了，基本上能滿足我們所有的需求，一些特殊需求也可以通過增加一些數學邏輯實現出來。 ...
2種GaussDB(DWS)查看作業運行信息方式

摘要：提供以作業基本單位的作業統計視圖pgxc_session_wlmstat，便於用戶觀察運行作業和排隊作業信息。本文分享自華為雲社區《GaussDB(DWS)如何查看作業運行信息》，作者：幕後小黑爪。用戶反饋，出現連接數告警，作業併發數高，超過資源池限制，與實際配置不符。經過瞭解，用戶使用p ...
HStore表全瞭解：實時入庫與高效查詢利器

摘要：本文章將從使用者角度介紹HStore概念以及使用。本文分享自華為雲社區《GaussDB(DWS)HStore表講解》，作者：大威天龍:- 。 HStore表簡介面對實時入庫和實時查詢要求越來越高的趨勢，已有的列存儲無法支持併發更新入庫，行存查詢性能無法做到實時返回且空間壓縮表現不佳。Gau ...