WOT乾貨大放送:大數據架構發展趨勢及探索實踐分享

来源:https://www.cnblogs.com/xuexiqun784789432/archive/2018/06/07/9151909.html
-Advertisement-
Play Games

WOT大數據處理技術分會場,PingCAP CTO黃東旭、易觀智庫CTO郭煒、Mob開發者服務平臺技術副總監林榮波、宜信技術研發中心高級架構師王東及商助科技(99Click)顧問總監鄭泉五位講師,分別針對時下熱門的HTAP資料庫TiDB、去ETL化的IOTA架構、數據工廠架構、實時敏捷大數據理念實踐 ...


 

 

 

WOT大數據處理技術分會場,PingCAP CTO黃東旭、易觀智庫CTO郭煒、Mob開發者服務平臺技術副總監林榮波、宜信技術研發中心高級架構師王東及商助科技(99Click)顧問總監鄭泉五位講師,分別針對時下熱門的HTAP資料庫TiDB、去ETL化的IOTA架構、數據工廠架構、實時敏捷大數據理念實踐、基於場景的大數據營銷等話題,展開實踐分享。

作者:查士加來源:51CTO

    2018年5月18-19日,由51CTO主辦的全球軟體與運維技術峰會在北京召開。來自全球企業的技術精英匯聚北京,暢談軟體技術前沿,共同探索運維技術的新邊界。而在本次大會上,除了眾星雲集的主論壇環節,12場分論壇更是各具特色,分別聚焦了時下最受關註的容器、AI、區塊鏈、大數據、物聯網等技術領域,是一次圍繞軟體與運維方向的技術乾貨與實踐經驗分享的高端技術盛宴。如果你想瞭解大數據的學習路線,想學習大數據知識以及需要免費的學習資料可以加群:784789432.歡迎你的加入。每天下午三點開直播分享基礎知識,晚上20:00都會開直播給大家分享大數據項目實戰。

18日下午的大數據處理技術分會場,PingCAP CTO黃東旭、易觀智庫CTO郭煒、Mob開發者服務平臺技術副總監林榮波、宜信技術研發中心高級架構師王東及商助科技(99Click)顧問總監鄭泉五位講師,分別針對時下熱門的HTAP資料庫TiDB、去ETL化的IOTA架構、數據工廠架構、實時敏捷大數據理念實踐、基於場景的大數據營銷等話題,展開實踐分享。

PingCAP CTO 黃東旭

如何運用HTAP資料庫幫到你? TiDB的故事

TiDB是一套開源分散式HTAP資料庫,同時提供MySQL與Spark SQL介面。PingCAP CTO黃東旭在演講中介紹,TiDB旨在以HTAP(Hybrid Transactional/Analytical Processing)資料庫的形式支持基於實時交易數據的實時業務分析需求,他分享了TiDB的設計思路,以及TiDB集群在部署與運營方面的最佳實踐。

黃東旭提到,當前資料庫領域面臨很多問題,資料庫解決方案和大數據分析引擎解決方案處於割裂的狀態,由於Oracle、MySQL資料庫並不是面向分散式環境而設計,因此即使勉強通過分庫、分表或中間件的方式,在資料庫層面做了分片,從本質上看也只是複製了相同的堆棧,而非針對分散式系統進行存儲和計算優化,這正是進行跨業務查詢或跨物理機查詢和寫入十分繁瑣的本質原因。

為瞭解決這一問題,TiDB在架構上將計算和存儲層進行高度的抽象和分離,對混合負載的場景通過IO優先順序隊列,智能副本調度,行列混合存儲等技術使其變為可能。TiDB產品的整體架構是分層的,由分散式SQL層(TiDB)、分散式KV存儲引擎(TiKV)以及管理整個集群的PD模塊組成。無限水平擴展是TiDB的一大特點,這裡所說的水平擴展包括兩方面:計算能力和存儲能力。

HTAP給開發者提供了一個實時數據分析方面的新思路,不需要再去維護另一個離線的數據倉庫,既減輕了ETL的工作,又能節省很大一部分建立數據倉庫所用到的存儲和計算成本,HTAP將是未來的重要趨勢。黃東旭介紹了HTAP資料庫的三類主要應用場景,一是大中台[鳶瑋1] 的場景;二是為微服務提供強一致的持久化數據層(the source of truth);三是MySQL分庫分表的完美替代品。

易觀 CTO 郭煒

Lambda架構已死,新一代去ETL化的IOTA架構

易觀CTO郭煒表示, 在大數據3.0時代,Lambda大數據架構已經無法滿足企業用戶日常大數據分析和精益運營的需要,去ETL化的IOTA大數據架構才是未來。郭煒從Lambda與Kappa架構的發展及優缺點展開,闡述了IOTA大數據架構的思路及優缺點,以及易觀在IOTA架構領域的實踐經驗。

在過去Lambda數據架構是每一個公司大數據平臺必備的架構,Lambda架構經歷多年的發展,其優點是穩定,對於實時計算部分的計算成本可控。然而在大數據3.0時代,其致命缺點逐漸顯現:一是實時與批量計算結果不一致引起的數據口徑問題;二是批量計算在計算視窗內無法完成;三是數據源變化要重新開發,開發周期長;四是伺服器存儲壓力大。

針對Lambda的部分缺陷,Kappa架構被提出來,其核心思想是通過改進流計算系統來解決數據全量處理的問題,使得實時計算和批處理過程使用同一套代碼。然而Kappa架構的缺點也十分明顯,那就是流式處理對於歷史數據的高吞吐量力不從心,開發周期長以及伺服器成本浪費嚴重。

為解決上述問題,郭煒針對IoT時代的特點提出了新一代的大數據IOTA架構,整體思路是設定標準數據模型,通過邊緣計算技術把所有的計算過程分散在數據產生、計算和查詢過程當中,以統一的數據模型貫穿始終,從而提高整體的預算效率,同時滿足即時計算的需要,可以使用各種Ad-hoc Query來查詢底層數據。

IOTA整體技術結構分為以下幾部分:

  • Common Data Model
  • Edge SDKs & Edge Servers
  • Real Time Data
  • Historical Data
  • Dumper
  • Query Engine
  • Realtime model feedback

IOTA大數據架構主要有如下幾個特點:一是去ETL化,解決了大數據處理中ETL和相關開發的痛點;二是不用等待ETL或Streaming的數據研發和處理,實現了Ad-hoc即時查詢;三是將過去統一到中央進行整體計算,分散到數據產生、存儲和查詢端,實現邊緣計算。

Mob開發者服務平臺技術副總監 林榮波

數據工廠架構升級分享

Mob是全球領先第三方全景數據服務平臺,其SDK產品現已累計服務23萬開發者,36萬個App。Mob在數據工廠的構成以及運作方面,有著全球領先的技術實力。Mob開發者服務平臺技術副總監林榮波分享了數據工廠整體架構設計實踐與變革歷程,從數據源、數據關係以及商業化產品產出效能這三大領域,闡述數據工廠的運作模式,以及結構升級對原有問題的優化和解決方案。

林榮波總結了公司創建以來在數據採集和處理方面的三大問題:一是數據源的問題,主要包括地域和應用市場政策問題,硬體和系統相容問題,SDK業務團隊與商業化團隊碰撞問題等;二是數據關係問題,數據源到成品數據鏈雜亂,團隊學習成本加劇,開發人員進行數據加工越來越累;三是商業化產品產出效能問題,產品迭代與新品的產出效能低,大數據開發和產品服務端的耦合度高,服務穩定性、隔離性較差。

Mob針對數據源問題提出了這樣的解決思路,採用公有雲+私有雲的方案確保數據正常,運用智能DNS+本地服務干預的方式將服務流量分發,增加服務開關設置解決數據項的政策問題,成立通用組件團隊解決團隊之間問題。

林榮波用“數據即血液”比喻數據關係,Mob通過表定義規劃、文檔規範,制定一些標準的工作流程,開發血緣管理系統,QC系統(監控數據流健康狀態&容錯處理),解決了數據關係的問題。

在商業化產出效能方面,Mob採用搭建中間件的方式來解決,形象的比喻就是資料庫的客戶端,它包括三大組件:3A系統,進行統一計費以及許可權管理;商業化查詢網關服務,實現負載均衡、請求監控、過載保護和故障定位等功能;最後是單獨的微服務集群。目前大多數商業化項目都可以由中間件的這三大組件搭建和拼接出來。針對那些新的或臨時性的商業需求,則交給HDP(個性化數據提供商)處理。

宜信技術研發中心高級架構師 王東

實時敏捷大數據在宜信的實踐

自去年9月宜信開源了AIOps三大利器(UAVStack,Wormhole,DBus)之後,這幾款開源軟體受到業界廣泛關註,不少企業已經試用,甚至部署到生產中。宜信技術研發中心高級架構師王東介紹了實時敏捷大數據在宜信的實踐過程,包括過去幾年宜信在實時大數據方面的需求、痛點和挑戰,以及實時敏捷大數據的基本概念和設計思路。此外,王東還介紹了宜信實時敏捷大數據的基石DBus+Wormhole兩個平臺的總體架構、主要功能、關鍵技術原理和優化方案,以及使用這兩個平臺構建和解決的各種實時場景的應用:包括實時營銷、實時運營、實時報表和數據同步等。

他總結並分析了大數據應用項目面臨的一些痛點,包括:數據孤島、數據時效性差、一致性差、無法快速響應業務開發數據產品等問題,並向與會者解讀了實時大數據應用中面臨的幾項技術挑戰:如何解決大數據中來源多樣化、實時性差的問題;如何降低大數據使用的技術門檻;如何快速迭代響應用戶需求,讓用戶參與進來,自助完成數據應用等。

宜信基於對實時敏捷大數據的理念,構建了DBus實時數據匯流排平臺 + Wormhole實時流式處理平臺。其中,DBus作為實時數據匯流排平臺,關註數據的抓取和結構化;Wormhole作為實時流式處理平臺,提供基於配置SQL的方式進行各種流式計算,並支持落庫到各種常見數據目標中。

王東從技術層面具體介紹這兩個平臺的內部架構,重點介紹了DBus和Wormhole兩個平臺的關鍵實現原理,例如:DBus 數據增量數據如何生成,全量數據如何切片;Wormhole平臺中數據如何進行流式計算優化,如何高效落庫等,並結合應用場景,對這兩個平臺解決的一些實際問題進行介紹,包括:實時營銷、實時運營和數倉同步等。

商助科技(99Click)顧問總監鄭泉

場景化大數據分析與營銷

商助科技(99Click)顧問總監鄭泉介紹,99Click是第一家獲得互聯網營銷數據分析專利的服務提供商,對大部分互聯網企業而言,大數據的價值已經超越了單純的積累數據或比拼運算效率,場景化是一個越來越熱的話題,他在本次演講中重點分享了場景化大數據營銷的實踐經驗。

企業的數據來源於產品、銷售、推廣、會員、供應鏈、財務以及管理等方方面面,這些數據在內部管理和對外營銷兩方面凸顯其價值。隨著大數據技術的快速發展,用戶數據、用戶畫像不斷完善,精準營銷乃大勢所趨。當今的互聯網市場,用戶增長放緩,用戶平均使用時長已近飽和狀態,增長空間十分狹小。因此,對互聯網企業來說,如何拉新、促活、召回和留存用戶,提升用戶粘性,並實現商業變現,是企業挖掘互聯網財富的工作重點。

99click 營銷數據模型

鄭泉認為,互聯網商業變現的能力涉及到場景入口和場景轉化能力。從客戶的時間、地點、事件等信息判斷客戶所屬的場景,站在客戶的角度去分析其需求,是提升轉化率的關鍵。用戶在不同場景間的行為產生了用戶數據,觸發、期望、接近、知曉、聯繫、行動、響應以及評價,是用戶體驗生命周期的一個迴圈過程,企業可以通過數據分析出哪個環節出了問題,從而進行有針對性的營銷。

99click “一站式”解決方案

99click提供場景化大數據分析與營銷的一站式解決方案,99click為剛剛成立不久、業務模式還在探索及調整階段的企業,提供兩項服務:一是系統服務,包括站點運營、推廣觸達、商品分析、用戶分析及數據整合等;二是人工服務,涵蓋初始化與全周期服務,數據分析與優化服務,從需求溝通與確認,定製方案,實施支持,數據校對與分析,到給出優化建議,是一個完整的人工服務流程。

如果你想瞭解大數據的學習路線,想學習大數據知識以及需要免費的學習資料可以加群:784789432.歡迎你的加入。每天下午三點開直播分享基礎知識,晚上20:00都會開直播給大家分享大數據項目實戰。

大數據架構正悄然轉變

從五位講師的分享中不難看出,現階段資料庫技術、大數據架構和應用還存在諸多難題,然而技術發展從未止步,正因有這些勇於探索、創新實踐、樂於分享的有志之士,才讓技術不斷迭代、快速演進。本次大數據專場上,聽眾爆滿,互動問答環節,與會嘉賓追問頻頻,講師均做出耐心解答。講師們帶來的全方位企業級大數據處理技術,以及前瞻性的實踐經驗分享,讓與會嘉賓受益頗多。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • ELK:Elasticsearch Logstash Kibana Elasticsearch:是基於JSON的分散式搜索和分析引擎,專為實現水平擴展、高可用和管理便捷性而設計 Logstash:是動態數據收集管道,擁有可擴展的插件生態系統 Kibana:能夠已圖形化呈現數據,並且具有可擴展的用戶界 ...
  • 1.yum install epel-release(安裝epel(Extra Packages for Enterprise Linux)) 2.yum repolist(確保epel添加到yum的源裡邊,如果沒有刪除epel-release重新安裝) 3.yum install nginx(安裝 ...
  • Shell編程之條件語句 學習目標: 掌握shell腳本條件測試 掌握if語句編程 目錄結構: 條件測試 條件測試概述 l 對特定的條件進行判斷,以決定如何執行操作 l 測試的方法 方法1:test 條件表達式 方法2:【條件表達式】 l 當條件成立時,測試語句的返回值為0,否則為其他數值 條件測試 ...
  • 一、現象描述 今天在調試兩台物理機,做完配置重啟主機後,發現一臺伺服器網路無法ssh連接,通過ILO進去ifconfig發現eth0配置的IP地址等信息丟失,手動重啟後,可以ssh連接,但過一段時間,ssh又再次登錄失敗,ifconfig eth0的相關信息也丟失。 二、錯誤原因 centos 6. ...
  • 深圳銳科光電科技有限公司的DALI色溫模塊符合IEC62386-102和IEC62386-207(LED模塊)和IEC62386-209(色溫)標準,同時支持DT6(LED模塊)和DT8(顏色控制-色溫)協議。採用了原裝進口ST單片機晶元,完美相容TRIDONIC(銳高)、OSRAM(歐司朗)、PH... ...
  • druid為各種場景提供了豐富的查詢類型。 查詢由各種JSON屬性組合而成,不同類型的查詢,JSON屬性不同,下麵主要介紹常用的查詢類型。 1. Components Datasources 一個數據源等價於druid表。此外,一個查詢也可以作為數據源,提供類似於子查詢的功能。查詢數據源目前只支持G ...
  • Redis對象類型 Redis基於基礎的數據結構創建的對象: 字元串對象、 列表對象、 哈希對象、 集合對象 有序集合對象。 對象回收:Redis對象系統實現了基於引用計數技術的記憶體回收機制,當程式不再使用某個對象的時候,這個對象所占用的記憶體就會被自動釋放;Redis通過引用計數技術實現了對象共用機 ...
  • 閱讀目錄 1、簡介 2、環境說明 3、主從複製 3.1、MySQL 3.2、配置文件 3.3、開始構建主從複製 3.4、測試主從複製 4、MySql主主複製 4.1、實現原理 4.2、配置文件 4.3、開始構建主主複製 4.4、測試主主複製 5、註意事項 閱讀目錄 1、簡介 2、環境說明 3、主從復 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...