大文件上傳功能在標簽服務的簡單應用和代碼實現

来源:https://www.cnblogs.com/DTinsight/archive/2023/06/14/17480037.html
-Advertisement-
Play Games

各位看官大家好,今天給大家分享的又是一篇實戰文章,希望大家能夠喜歡。 目前「[袋鼠雲客戶數據洞察平臺](https://www.dtstack.com/easydigit/userinsight?src=szsm)」標簽服務的群組按種類劃分,可以分為三大類,分別是實時群組、[動態群組](https: ...


各位看官大家好,今天給大家分享的又是一篇實戰文章,希望大家能夠喜歡。

目前「袋鼠雲客戶數據洞察平臺」標簽服務的群組按種類劃分,可以分為三大類,分別是實時群組、動態群組以及靜態群組。如果按創建方式劃分則有兩種,分別是通過圈群的方式創建以及通過上傳本地文件進行維度匹配的方式創建得到本地群組,其中本地群組屬於靜態群組。

除了本地群組外的其他群組目前都是採用圈群的方式生成匹配 SQL,然後執行相應的 SQL 得到相應查詢維度的數據併入庫到群組表,這種方式比較方便,可以快速得到一個用戶期望的群組。

file

但是有那麼一種場景,假設想要設置的條件很分散,通過圈群配置的時候比較複雜,那麼只能通過上傳文件的方式進行匹配,這就需要用戶上傳本地文件,通過指定匹配維度的方式來生成本地群組。

file

如果用戶上傳的本地文件很小,那麼比較簡單,按單個文件直接上傳解析即可。如果用戶上傳的文件很大,有50M,那麼就需要採用分片的方式進行上傳,本文和大家分享一下這兩種文件上傳的代碼實現。

小文件上傳的實現

小文件上傳的主要流程包括將文件上傳到伺服器,並獲得文件的編碼格式,文件上傳完畢後,非同步解析文件並得到本地群組。

將文件上傳到 HDFS 並保存原始文件到 SFTP,上傳到 HDFS 之後,通過 SQL 來與實體對應的大寬表進行數據匹配,最終生成本地群組。

file

小文件直接上傳即可,代碼如下,上傳完成後,獲取文件的編碼格式,用於後續的文件解析。

file

大文件上傳的實現

前端將大文件按指定大小分片,並計算原始文件的 md5 和每個分片文件的 md5,分別用於文件校驗以及分片文件斷點續傳。介面入參代碼設計如下:

file

大文件分片實現部分核心代碼如下:

file

分片文件重新在伺服器整合為一個大文件的整體代碼如下:

file
file

單個分片的數據接收並寫入代碼如下:

file

當檢測到上傳的文件是最後一個分片文件的時候,待分片數據寫入完成後,需要對伺服器上的文件進行 md5 校驗來保證文件數據的一致性。

當文件上傳到伺服器完成後,需要將文件上傳到 HDFS 以及SFTP,代碼如下:

file
file

最終得到的本地群組如下:

file
file

《數棧產品白皮書》:https://www.dtstack.com/resources/1004?src=szsm

《數據治理行業實踐白皮書》下載地址:https://www.dtstack.com/resources/1001?src=szsm

想瞭解或咨詢更多有關袋鼠雲大數據產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szbky

同時,歡迎對大數據開源項目有興趣的同學加入「袋鼠雲開源框架釘釘技術qun」,交流最新開源技術信息,qun號碼:30537511,項目地址:https://github.com/DTStack


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • # ssh免密登錄、伺服器安全 ## ssh免密登錄 > 1. 客戶端本地生成一對公鑰 > > ``` > ssh-keygen -t rsa > ``` > > 2. 客戶端發送自己的公鑰,發給伺服器,存在伺服器的authorized_keys文件中 > > ``` > ssh-copy-id r ...
  • 之前新東方的老師分享了他們通過 Telegraf、Loki、Nightingale 等工具來監控機器硬體狀態的方案,具備很強的靈活性、平臺性。本文會介紹一個相對輕量的方式,只需要一個二進位+一個腳本即可搞定,給各位朋友提供一種新的選擇 ...
  • # DNS功能變數名稱解析 ## 1、nslookup > 通過nslookup命令查看功能變數名稱的解析關係 > > 1.該命令需要單獨安裝dns的套件軟體包 > > yum install bind-utils -y > > 2.使用nslookup命令 > > nslookup > > www.baidu.c ...
  • # NFS遠程掛載 ## 一、概述 > NFS是一種基於TCP/IP 傳輸的網路文件系統協議。通過使用NFS協議,客戶機可以像訪問本地目錄一樣訪問遠程伺服器中的共用資源 > NAS存儲: NFS服務的實現依賴於RPC (Remote Process Call,遠端過程調用)機制,以完成遠程到本地的映 ...
  • [TOC](【後端面經-資料庫】MySQL的事務隔離級別簡介) ## 0. 事務的概念 事務指的是一連串的集中操作指令,一個事務的執行必須執行完所有的動作才能算作執行結束。事務具有四個特點,簡記作`ACID`: - `A`-Atomicity: 原子性,事務的執行必須保證所有的動作都執行完畢; - ...
  • hive本身提供的時間函數已經很豐富了,基本上能滿足我們所有的需求,一些特殊需求也可以通過增加一些數學邏輯實現出來。 ...
  • 摘要:提供以作業基本單位的作業統計視圖pgxc_session_wlmstat,便於用戶觀察運行作業和排隊作業信息。 本文分享自華為雲社區《GaussDB(DWS)如何查看作業運行信息》,作者:幕後小黑爪。 用戶反饋,出現連接數告警,作業併發數高,超過資源池限制,與實際配置不符。經過瞭解,用戶使用p ...
  • 摘要:本文章將從使用者角度介紹HStore概念以及使用。 本文分享自華為雲社區《GaussDB(DWS)HStore表講解》,作者:大威天龍:- 。 HStore表簡介 面對實時入庫和實時查詢要求越來越高的趨勢,已有的列存儲無法支持併發更新入庫,行存查詢性能無法做到實時返回且空間壓縮表現不佳。Gau ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...