各位看官大家好,今天給大家分享的又是一篇實戰文章,希望大家能夠喜歡。 目前「[袋鼠雲客戶數據洞察平臺](https://www.dtstack.com/easydigit/userinsight?src=szsm)」標簽服務的群組按種類劃分,可以分為三大類,分別是實時群組、[動態群組](https: ...
各位看官大家好,今天給大家分享的又是一篇實戰文章,希望大家能夠喜歡。
目前「袋鼠雲客戶數據洞察平臺」標簽服務的群組按種類劃分,可以分為三大類,分別是實時群組、動態群組以及靜態群組。如果按創建方式劃分則有兩種,分別是通過圈群的方式創建以及通過上傳本地文件進行維度匹配的方式創建得到本地群組,其中本地群組屬於靜態群組。
除了本地群組外的其他群組目前都是採用圈群的方式生成匹配 SQL,然後執行相應的 SQL 得到相應查詢維度的數據併入庫到群組表,這種方式比較方便,可以快速得到一個用戶期望的群組。
但是有那麼一種場景,假設想要設置的條件很分散,通過圈群配置的時候比較複雜,那麼只能通過上傳文件的方式進行匹配,這就需要用戶上傳本地文件,通過指定匹配維度的方式來生成本地群組。
如果用戶上傳的本地文件很小,那麼比較簡單,按單個文件直接上傳解析即可。如果用戶上傳的文件很大,有50M,那麼就需要採用分片的方式進行上傳,本文和大家分享一下這兩種文件上傳的代碼實現。
小文件上傳的實現
小文件上傳的主要流程包括將文件上傳到伺服器,並獲得文件的編碼格式,文件上傳完畢後,非同步解析文件並得到本地群組。
將文件上傳到 HDFS 並保存原始文件到 SFTP,上傳到 HDFS 之後,通過 SQL 來與實體對應的大寬表進行數據匹配,最終生成本地群組。
小文件直接上傳即可,代碼如下,上傳完成後,獲取文件的編碼格式,用於後續的文件解析。
大文件上傳的實現
前端將大文件按指定大小分片,並計算原始文件的 md5 和每個分片文件的 md5,分別用於文件校驗以及分片文件斷點續傳。介面入參代碼設計如下:
大文件分片實現部分核心代碼如下:
分片文件重新在伺服器整合為一個大文件的整體代碼如下:
單個分片的數據接收並寫入代碼如下:
當檢測到上傳的文件是最後一個分片文件的時候,待分片數據寫入完成後,需要對伺服器上的文件進行 md5 校驗來保證文件數據的一致性。
當文件上傳到伺服器完成後,需要將文件上傳到 HDFS 以及SFTP,代碼如下:
最終得到的本地群組如下:
《數棧產品白皮書》:https://www.dtstack.com/resources/1004?src=szsm
《數據治理行業實踐白皮書》下載地址:https://www.dtstack.com/resources/1001?src=szsm
想瞭解或咨詢更多有關袋鼠雲大數據產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szbky
同時,歡迎對大數據開源項目有興趣的同學加入「袋鼠雲開源框架釘釘技術qun」,交流最新開源技術信息,qun號碼:30537511,項目地址:https://github.com/DTStack