WOT大數據處理技術分會場,PingCAP CTO黃東旭、易觀智庫CTO郭煒、Mob開發者服務平臺技術副總監林榮波、宜信技術研發中心高級架構師王東及商助科技(99Click)顧問總監鄭泉五位講師,分別針對時下熱門的HTAP資料庫TiDB、去ETL化的IOTA架構、數據工廠架構、實時敏捷大數據理念實踐 ...
WOT大數據處理技術分會場,PingCAP CTO黃東旭、易觀智庫CTO郭煒、Mob開發者服務平臺技術副總監林榮波、宜信技術研發中心高級架構師王東及商助科技(99Click)顧問總監鄭泉五位講師,分別針對時下熱門的HTAP資料庫TiDB、去ETL化的IOTA架構、數據工廠架構、實時敏捷大數據理念實踐、基於場景的大數據營銷等話題,展開實踐分享。
- 作者:查士加來源:51CTO
2018年5月18-19日,由51CTO主辦的全球軟體與運維技術峰會在北京召開。來自全球企業的技術精英匯聚北京,暢談軟體技術前沿,共同探索運維技術的新邊界。而在本次大會上,除了眾星雲集的主論壇環節,12場分論壇更是各具特色,分別聚焦了時下最受關註的容器、AI、區塊鏈、大數據、物聯網等技術領域,是一次圍繞軟體與運維方向的技術乾貨與實踐經驗分享的高端技術盛宴。如果你想瞭解大數據的學習路線,想學習大數據知識以及需要免費的學習資料可以加群:784789432.歡迎你的加入。每天下午三點開直播分享基礎知識,晚上20:00都會開直播給大家分享大數據項目實戰。
18日下午的大數據處理技術分會場,PingCAP CTO黃東旭、易觀智庫CTO郭煒、Mob開發者服務平臺技術副總監林榮波、宜信技術研發中心高級架構師王東及商助科技(99Click)顧問總監鄭泉五位講師,分別針對時下熱門的HTAP資料庫TiDB、去ETL化的IOTA架構、數據工廠架構、實時敏捷大數據理念實踐、基於場景的大數據營銷等話題,展開實踐分享。
PingCAP CTO 黃東旭
如何運用HTAP資料庫幫到你? TiDB的故事
TiDB是一套開源分散式HTAP資料庫,同時提供MySQL與Spark SQL介面。PingCAP CTO黃東旭在演講中介紹,TiDB旨在以HTAP(Hybrid Transactional/Analytical Processing)資料庫的形式支持基於實時交易數據的實時業務分析需求,他分享了TiDB的設計思路,以及TiDB集群在部署與運營方面的最佳實踐。
黃東旭提到,當前資料庫領域面臨很多問題,資料庫解決方案和大數據分析引擎解決方案處於割裂的狀態,由於Oracle、MySQL資料庫並不是面向分散式環境而設計,因此即使勉強通過分庫、分表或中間件的方式,在資料庫層面做了分片,從本質上看也只是複製了相同的堆棧,而非針對分散式系統進行存儲和計算優化,這正是進行跨業務查詢或跨物理機查詢和寫入十分繁瑣的本質原因。
為瞭解決這一問題,TiDB在架構上將計算和存儲層進行高度的抽象和分離,對混合負載的場景通過IO優先順序隊列,智能副本調度,行列混合存儲等技術使其變為可能。TiDB產品的整體架構是分層的,由分散式SQL層(TiDB)、分散式KV存儲引擎(TiKV)以及管理整個集群的PD模塊組成。無限水平擴展是TiDB的一大特點,這裡所說的水平擴展包括兩方面:計算能力和存儲能力。
HTAP給開發者提供了一個實時數據分析方面的新思路,不需要再去維護另一個離線的數據倉庫,既減輕了ETL的工作,又能節省很大一部分建立數據倉庫所用到的存儲和計算成本,HTAP將是未來的重要趨勢。黃東旭介紹了HTAP資料庫的三類主要應用場景,一是大中台[鳶瑋1] 的場景;二是為微服務提供強一致的持久化數據層(the source of truth);三是MySQL分庫分表的完美替代品。
易觀 CTO 郭煒
Lambda架構已死,新一代去ETL化的IOTA架構
易觀CTO郭煒表示, 在大數據3.0時代,Lambda大數據架構已經無法滿足企業用戶日常大數據分析和精益運營的需要,去ETL化的IOTA大數據架構才是未來。郭煒從Lambda與Kappa架構的發展及優缺點展開,闡述了IOTA大數據架構的思路及優缺點,以及易觀在IOTA架構領域的實踐經驗。
在過去Lambda數據架構是每一個公司大數據平臺必備的架構,Lambda架構經歷多年的發展,其優點是穩定,對於實時計算部分的計算成本可控。然而在大數據3.0時代,其致命缺點逐漸顯現:一是實時與批量計算結果不一致引起的數據口徑問題;二是批量計算在計算視窗內無法完成;三是數據源變化要重新開發,開發周期長;四是伺服器存儲壓力大。
針對Lambda的部分缺陷,Kappa架構被提出來,其核心思想是通過改進流計算系統來解決數據全量處理的問題,使得實時計算和批處理過程使用同一套代碼。然而Kappa架構的缺點也十分明顯,那就是流式處理對於歷史數據的高吞吐量力不從心,開發周期長以及伺服器成本浪費嚴重。
為解決上述問題,郭煒針對IoT時代的特點提出了新一代的大數據IOTA架構,整體思路是設定標準數據模型,通過邊緣計算技術把所有的計算過程分散在數據產生、計算和查詢過程當中,以統一的數據模型貫穿始終,從而提高整體的預算效率,同時滿足即時計算的需要,可以使用各種Ad-hoc Query來查詢底層數據。
IOTA整體技術結構分為以下幾部分:
- Common Data Model
- Edge SDKs & Edge Servers
- Real Time Data
- Historical Data
- Dumper
- Query Engine
- Realtime model feedback
IOTA大數據架構主要有如下幾個特點:一是去ETL化,解決了大數據處理中ETL和相關開發的痛點;二是不用等待ETL或Streaming的數據研發和處理,實現了Ad-hoc即時查詢;三是將過去統一到中央進行整體計算,分散到數據產生、存儲和查詢端,實現邊緣計算。
Mob開發者服務平臺技術副總監 林榮波
數據工廠架構升級分享
Mob是全球領先第三方全景數據服務平臺,其SDK產品現已累計服務23萬開發者,36萬個App。Mob在數據工廠的構成以及運作方面,有著全球領先的技術實力。Mob開發者服務平臺技術副總監林榮波分享了數據工廠整體架構設計實踐與變革歷程,從數據源、數據關係以及商業化產品產出效能這三大領域,闡述數據工廠的運作模式,以及結構升級對原有問題的優化和解決方案。
林榮波總結了公司創建以來在數據採集和處理方面的三大問題:一是數據源的問題,主要包括地域和應用市場政策問題,硬體和系統相容問題,SDK業務團隊與商業化團隊碰撞問題等;二是數據關係問題,數據源到成品數據鏈雜亂,團隊學習成本加劇,開發人員進行數據加工越來越累;三是商業化產品產出效能問題,產品迭代與新品的產出效能低,大數據開發和產品服務端的耦合度高,服務穩定性、隔離性較差。
Mob針對數據源問題提出了這樣的解決思路,採用公有雲+私有雲的方案確保數據正常,運用智能DNS+本地服務干預的方式將服務流量分發,增加服務開關設置解決數據項的政策問題,成立通用組件團隊解決團隊之間問題。
林榮波用“數據即血液”比喻數據關係,Mob通過表定義規劃、文檔規範,制定一些標準的工作流程,開發血緣管理系統,QC系統(監控數據流健康狀態&容錯處理),解決了數據關係的問題。
在商業化產出效能方面,Mob採用搭建中間件的方式來解決,形象的比喻就是資料庫的客戶端,它包括三大組件:3A系統,進行統一計費以及許可權管理;商業化查詢網關服務,實現負載均衡、請求監控、過載保護和故障定位等功能;最後是單獨的微服務集群。目前大多數商業化項目都可以由中間件的這三大組件搭建和拼接出來。針對那些新的或臨時性的商業需求,則交給HDP(個性化數據提供商)處理。
宜信技術研發中心高級架構師 王東
實時敏捷大數據在宜信的實踐
自去年9月宜信開源了AIOps三大利器(UAVStack,Wormhole,DBus)之後,這幾款開源軟體受到業界廣泛關註,不少企業已經試用,甚至部署到生產中。宜信技術研發中心高級架構師王東介紹了實時敏捷大數據在宜信的實踐過程,包括過去幾年宜信在實時大數據方面的需求、痛點和挑戰,以及實時敏捷大數據的基本概念和設計思路。此外,王東還介紹了宜信實時敏捷大數據的基石DBus+Wormhole兩個平臺的總體架構、主要功能、關鍵技術原理和優化方案,以及使用這兩個平臺構建和解決的各種實時場景的應用:包括實時營銷、實時運營、實時報表和數據同步等。
他總結並分析了大數據應用項目面臨的一些痛點,包括:數據孤島、數據時效性差、一致性差、無法快速響應業務開發數據產品等問題,並向與會者解讀了實時大數據應用中面臨的幾項技術挑戰:如何解決大數據中來源多樣化、實時性差的問題;如何降低大數據使用的技術門檻;如何快速迭代響應用戶需求,讓用戶參與進來,自助完成數據應用等。
宜信基於對實時敏捷大數據的理念,構建了DBus實時數據匯流排平臺 + Wormhole實時流式處理平臺。其中,DBus作為實時數據匯流排平臺,關註數據的抓取和結構化;Wormhole作為實時流式處理平臺,提供基於配置SQL的方式進行各種流式計算,並支持落庫到各種常見數據目標中。
王東從技術層面具體介紹這兩個平臺的內部架構,重點介紹了DBus和Wormhole兩個平臺的關鍵實現原理,例如:DBus 數據增量數據如何生成,全量數據如何切片;Wormhole平臺中數據如何進行流式計算優化,如何高效落庫等,並結合應用場景,對這兩個平臺解決的一些實際問題進行介紹,包括:實時營銷、實時運營和數倉同步等。
商助科技(99Click)顧問總監鄭泉
場景化大數據分析與營銷
商助科技(99Click)顧問總監鄭泉介紹,99Click是第一家獲得互聯網營銷數據分析專利的服務提供商,對大部分互聯網企業而言,大數據的價值已經超越了單純的積累數據或比拼運算效率,場景化是一個越來越熱的話題,他在本次演講中重點分享了場景化大數據營銷的實踐經驗。
企業的數據來源於產品、銷售、推廣、會員、供應鏈、財務以及管理等方方面面,這些數據在內部管理和對外營銷兩方面凸顯其價值。隨著大數據技術的快速發展,用戶數據、用戶畫像不斷完善,精準營銷乃大勢所趨。當今的互聯網市場,用戶增長放緩,用戶平均使用時長已近飽和狀態,增長空間十分狹小。因此,對互聯網企業來說,如何拉新、促活、召回和留存用戶,提升用戶粘性,並實現商業變現,是企業挖掘互聯網財富的工作重點。
99click 營銷數據模型
鄭泉認為,互聯網商業變現的能力涉及到場景入口和場景轉化能力。從客戶的時間、地點、事件等信息判斷客戶所屬的場景,站在客戶的角度去分析其需求,是提升轉化率的關鍵。用戶在不同場景間的行為產生了用戶數據,觸發、期望、接近、知曉、聯繫、行動、響應以及評價,是用戶體驗生命周期的一個迴圈過程,企業可以通過數據分析出哪個環節出了問題,從而進行有針對性的營銷。
99click “一站式”解決方案
99click提供場景化大數據分析與營銷的一站式解決方案,99click為剛剛成立不久、業務模式還在探索及調整階段的企業,提供兩項服務:一是系統服務,包括站點運營、推廣觸達、商品分析、用戶分析及數據整合等;二是人工服務,涵蓋初始化與全周期服務,數據分析與優化服務,從需求溝通與確認,定製方案,實施支持,數據校對與分析,到給出優化建議,是一個完整的人工服務流程。
如果你想瞭解大數據的學習路線,想學習大數據知識以及需要免費的學習資料可以加群:784789432.歡迎你的加入。每天下午三點開直播分享基礎知識,晚上20:00都會開直播給大家分享大數據項目實戰。
大數據架構正悄然轉變
從五位講師的分享中不難看出,現階段資料庫技術、大數據架構和應用還存在諸多難題,然而技術發展從未止步,正因有這些勇於探索、創新實踐、樂於分享的有志之士,才讓技術不斷迭代、快速演進。本次大數據專場上,聽眾爆滿,互動問答環節,與會嘉賓追問頻頻,講師均做出耐心解答。講師們帶來的全方位企業級大數據處理技術,以及前瞻性的實踐經驗分享,讓與會嘉賓受益頗多。