競速榜實時離線對數方案演進介紹

来源:https://www.cnblogs.com/jingdongkeji/archive/2023/07/31/17592812.html
-Advertisement-
Play Games

競速榜是大促期間各採銷群提供的基於京東實時銷售數據的排行榜,同樣應對大促流量洪峰場景,通過榜單撬動品牌在京東增加資源投入。競速榜基於用戶配置規則進行實時數據計算,榜單排名在大促期間實時變化,相關排名數據在微博、朋友圈廣泛傳播,相關計算以及排名的準確性至關重要。 ...


一、背景

競速榜是大促期間各採銷群提供的基於京東實時銷售數據的排行榜,同樣應對大促流量洪峰場景,通過榜單撬動品牌在京東增加資源投入。競速榜基於用戶配置規則進行實時數據計算,榜單排名在大促期間實時變化,相關排名數據在微博、朋友圈廣泛傳播,相關計算以及排名的準確性至關重要。

競速榜的每個榜單配置規則都會有差異,為保障榜單數據計算準確,需要在大促開始前對榜單實時排名數據進行核對,主要驗證方案為在第二天取前一天的實時排名數據,另外根據榜單規則配置信息,計算相關的離線數據,進行實時離線數據對比,驗證數據的一致性。

單個榜單規則有20+個不同配置項,每個配置都相互獨立,需要針對每個規則分別進行數據驗證

二、對數方案演進過程

2.1、純人工 - 成本高且無法完整覆蓋

最初階段為純人工對數,分別獲取對應競速榜的實時和離線數據,進行人工比對

1)實時數據:每天23:59 定時讀取榜單數據介面,記錄對應榜單數據

2)離線數據:根據榜單規則手動編寫離線SQL腳本,通過數據查詢執行SQL獲取榜單排名數據

整個操作過程消耗時間較長,SQL編寫需要1小時,單SQL執行0.5小時,為覆蓋所有規則,一次需要完成100多個規則的配置和SQL編寫以及數據驗證,在規則不變情況下,預計需要消耗20人日才能完成一次完整測試, 且腳本編寫需要對業務規則深入瞭解,對測試人員SQL水平要求也較高。

2.2、半自動化 - 持續消耗人力

競速榜主要在大促期間使用,除功能測試覆蓋規則外,在大促前還要對業務方配置的規則進行數據驗證,確保用戶配置規則的計算準確性,以23年618為例,共有5000+榜單規則,如果仍然使用純人工驗證數據的方案,需要900+天,完全不可行。因此實現了半自動化對數方案,和人工對數方案相比,解決了離線SQL的自動化生成,實時數據的自動獲取等問題。

具體方案如下:

1、實時數據獲取:基於榜單快照功能,自動記錄榜單每日快照數據並寫入資料庫,

2、離線SQL生成和數據計算:

2.1、規則配置入庫:通過系統自帶的榜單規則導出功能,將榜單規則導出到excel,進而導入到hive表中;同時將榜單規則依賴的其他配置數據也導入到hive

2.2、規則化生成SQL:根據榜單規則配置信息,使用case when的方法,針對不同情況分別生成對應SQL片段,最後人工組合為上述SQL

2.3、合併SQL執行計算任務:將多個組合生成的SQL合併為1個,並配置離線調度任務,通過任務執行分別計算不同榜單的離線數據

2.4、數據推送到對數MySQL:將生成的離線榜單數據推送到實時數據存儲的MySQL

3、實時離線數據對比:將實時和離線數據全部推送入資料庫後,直接查詢資料庫,進行數據對比,並對超過閾值的數據進行高亮提示。

通過以上方法,完成了半自動化的實時離線對數,解決了人工對數中最消耗人力的SQL手動編寫問題。但是,該方案仍然存在以下問題:

  1. SQL需要人工介入:SQL的生成還存在多次人工操作,中間需要人工對生成的SQL進行調整

  2. 規則變化引發SQL調整:在大促前,用戶會持續調整規則,這樣就導致之前配置好的SQL 和用戶規則不一致,進而導致對應榜單對數失敗,需要重新生成對應SQL,配置調度任務並重新執行對數操作。

在22年618和雙11期間,主要是研發同學使用進行相關SQL調整和數據驗證,需要3個開發人員持續3周,整體消耗人力45人日。

2.3、全自動化 - 解放人力

為了進一步解放人力消耗,將對數操作從半自動化升級到全自動化,需要實現以下內容

  1. 無需人工介入,自動生成SQL,自動執行SQL

  2. 執行用的SQL根據規則變化每日自動調整,保證SQL可以自動持續更新

完整的自動化對數方案如下圖所示:

優化點細節:

1. 每天自動更新並存儲SQL:榜單規則從手動頁面導出變為每天自動抽取規則數據到HIVE中,進而每天自動更新目標SQL並將SQL存儲到HIVE表中

2. 自動獲取目標SQL並執行:將執行的目標SQL從HIVE中獲取到後再執行SQL(使用了hive命令的一些特殊方法,預先獲取到SQL再執行)

#HiveTask增加run_shell_cmd_out函數只返回標準流的內容在標準客戶端執行如下python腳本
from HiveTask import HiveTask
ht = HiveTask()
ht.run_shell_cmd_out(shellcmd='hive -e "select *  from table;"')

該方案在23年618期間投入使用,恰逢研發團隊交接,新團隊毫無對數經驗,且有其他業務同步進行,無法投入全量人力。通過全自動化對數,解放了研發人力投入,極大提高了大促備戰效率。需要人力主要是測試同學對整個鏈路的調度任務進行維護性處理。

作者:京東零售 王恆蕾、戚琪

來源:京東雲開發者社區


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • SQL Server根據查詢結果將數據導出教程,可以選擇導出源,選擇自己要導出的格式文件,然後選擇路徑,包含首列名稱。 ...
  • SQLite 是一個軟體庫,實現了自給自足的、無伺服器的、零配置的、事務性的 SQL 資料庫引擎。SQLite 是在世界上最廣泛部署的 SQL 資料庫引擎。SQLite 源代碼不受版許可權制。 ...
  • 在mysql未支持json數據類型時,我們通常使用varchar、blob或text的數據類型存儲json字元串,對mysql來說,用戶插入的數據只是序列化後的一個普通的字元串,不會對JSON文檔本身的語法合法性做檢查,文檔的合法性需要用戶自己保證。在使用時需要先將整個json對象從資料庫讀取出來,... ...
  • 一、視圖介紹 視圖(View):是一種虛擬存在的表,視圖中的數據並不在資料庫中實際存在,行和列數據來自,定義視圖時查詢使用的表,並且是在使用視圖時動態生成的。通俗的講,視圖只保存了查詢的SQL邏輯,不保存查詢的結果。 二、創建視圖 2.1 語法 create [or replace] view 視圖 ...
  • 年初和朋友一起做了個項目,到現在還沒收到錢呢,今天中午時候突然聽說之前的資料庫被攻擊了,業務資料庫全部被刪除。看有沒有什麼辦法恢復,要是恢復不了,肯定也別想拿錢了吧? | README FOR RECOVERY DATA | | | | All your databases was backed u ...
  • 本文分享自華為雲社區《產教融合 華為雲GaussDB助力資料庫產業人才培養》,作者: GaussDB 資料庫。 近日,GaussDB資料庫產教融合論壇在華為蘇州研究所舉行。本次論壇邀請了多位知名高校老師、北京金融科技產業聯盟代表和金融行業DBA代表到場參加,共同圍繞企業資料庫人才需求、高校資料庫人才 ...
  • 近年來,隨著雲計算、大數據等新一代信息技術的飛速發展,水務治理迎來智慧化新時代。藉助新一代信息技術打破傳統水務系統的信息孤島,實現數據共用,增強水務全流程監管能力,實現水務的智慧服務、高效運營和安全穩定,成為水務治理新的發力點。 ...
  • --建表語句IF EXISTS (SELECT TABLE_NAME FROM INFORMATION_SCHEMA.TABLES WHERE TABLE_NAME = 'MENU_INFO') DROP TABLE MENU_INFO;CREATE TABLE MENU_INFO(MENU_ID ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...