資料庫獨角獸SingleStore:沒有HTAP,機器學習和人工智慧都是不切實際的

来源:https://www.cnblogs.com/stonedb/archive/2022/11/15/16892922.html
-Advertisement-
Play Games

SingleStore(前身 MemSQL)是一個為數據密集型應用設計的雲原生資料庫。它是一個分散式的關係型 SQL 資料庫管理系統(RDBMS),具有 ANSI SQL 支持,它以數據攝入、交易處理和查詢處理的速度而聞名。SingleStore 主要存儲關係型數據,但也可以存儲 JSON 數據、圖 ...


SingleStore(前身 MemSQL)是一個為數據密集型應用設計的雲原生資料庫。它是一個分散式的關係型 SQL 資料庫管理系統(RDBMS),具有 ANSI SQL 支持,它以數據攝入、交易處理和查詢處理的速度而聞名。SingleStore 主要存儲關係型數據,但也可以存儲 JSON 數據、圖形數據和時間序列數據。它支持混合工作負載,也就是我們常說的 HTAP ,以及更傳統的 OLTP 和 OLAP 用例。對於查詢,它將結構化查詢語言(SQL)編譯成機器代碼。SingleStore 資料庫引擎可以在各種 Linux 環境中運行,包括企業內部安裝(on-premises)、公共和私有雲供應商、通過 Kubernetes 運營商在容器中運行,或者使用 SingleStore 自有的托管雲服務。

今天我們主要來聊一聊資料庫獨角獸公司 SingleStore 對 HTAP 的認知。

SingleStore,HTAP 界的融資寵兒

說起 SingleStore,一些同學可能不太瞭解,但是提到 MemSQL,相信研究過HTAP 資料庫發展脈絡的同學就很熟悉了,也可以回顧一下這篇文章《深度乾貨!一篇Paper帶您讀懂HTAP》,我們在第一節中介紹了 HTAP 資料庫的發展歷史,其中 MemSQL 就是最早的一波提出行列混存+記憶體計算的資料庫,也是在 2014 年要發力 HTAP 的,恰巧和 Gartner 正式提出 HTAP 概念是同一年。不過後來在 2020 年 10 月,MemSQL 正式宣佈改名為 SingleStore 了。

關於改名的原因,官方是說是為了更好地描述組織的廣泛價值主張。官方表示,儘管 MemSQL 在數據架構師和性能工程師中廣為人知,但該公司的旗艦數據管理產品已擴展到包括開發人員功能,所以 MemSQL 已不能再反映他們當前功能和產品願景的廣度和深度。

其進行品牌重塑的目的在於,向外界反映 MemSQL 不僅僅是一個記憶體資料庫,而是一個可以實現企業所有數據的平臺。SingleStore 將為交易和分析提供一個數據平臺,能夠處理結構化、非結構化和半結構化數據。

SingleStore 首席產品官 Jordan Jigani 還透露了團隊的新願景,即計劃提供對位於 SingleStore 以外任何地方的數據的訪問許可權。這項新功能將為跨多雲環境的數據提供一個全局命名空間,使 SingleStore 可以提供一個 API,無論數據位於何處,都可以通過該 API 對數據進行操作。用戶可以從擁有 SingleStore 計算群集的任何位置訪問 SingleStore 資料庫,同時遵守訪問許可權和主許可權制。

不得不說,SingleStore 對市場的敏銳度還是很高的,像 HTAP、雲原生、分散式、一體化、平臺化、實時分析處理、資料庫 API 化、DBaas 這些,人家玩得很溜,把這些偉大的願景拋出去又加上技術確實不錯,自然很受資本市場的歡迎,從其融資歷史就可以窺知一二:

融資輪次 融資時間 融資金額($) 領投機構
種子輪 2011 年 7 月 210萬 Y Combinator等
A輪 2013 年 1 月 500萬 DCVC等
B輪 2014 年 1 月 3500萬 Accel等
B+輪 2014 年 9 月 未披露 In-Q-Tel等
C輪 2016 年 4 月 3600萬 Caffeinated Capital 和 REV等
D輪 2018 年 5 月 3000萬 Glynn Capital Management 和 GV等
債務投資 2020 年 5 月 5000萬 Hercules Capital獨家
E輪 2020 年 12 月 8000萬 Insight Partners(領投)、Accel、GV、Dell Technologies Capital、Hercules Capital等
F輪 2021 年 9 月 8000萬 Insight Partners等
F+輪 2022 年 7 月 1.16億 Goldman Sachs等
F++輪 2022 年 10 月 3000萬 Goldman Sachs 和 Prosperity7 Ventures等

截止目前,SingleStore 的總融資額達到 4.12 億美元,估值超過了 13 億美金,當然,可能一些經常看 VC 圈子的小同學覺得這個估值對於資料庫企業來說不算特別高,也不是很明白,為啥有這麼多投資機構給它投錢,因為在資料庫這個賽道上確實太多捲王了。SingleStore 雖然面臨著與 Imply、Oracle、Snowflake 和 MongoDB 等企業的競爭,但要知道,SingleStore 現在只有近 400 名員工,卻已經擁有大約 300 名客戶,估值還高於 10 億美元,相信明眼人都能看出來,SingleStore 的潛力無限,正如 CMU 的 Andy Pavlo 教授在去年預測的那樣,這家公司離 IPO 不遠了。

此外,Gartner 預測,到 2022 年,75% 的資料庫將遷移到雲服務。一項調查顯示,每年在大數據和人工智慧計划上投資超過 5000 萬美元的公司數量在 2019 年上升至 33.9%。

如果沒有 HTAP,機器學習和人工智慧都是不切實際的

下麵是一篇來自 SingleStore 的博客,推薦給大家閱讀。

HTAP,即混合交易/分析處理,將交易(如更新資料庫)與分析(如尋找可能的銷售線索)相結合。HTAP 資料庫在一個資料庫中支持這兩種工作負載,提供速度和簡單性。今天,“雲原生 HTAP”的概念很流行,用戶希望 HTAP 資料庫能夠與 Kafka、Spark 和其他技術在雲中順利混合和匹配。使用的場景案例包括預防欺詐、電子商務的推薦引擎、智能電網和人工智慧等等。

HTAP 資料庫在某種程度上是為集成流數據源(如 Kafka )和用於高級分析、人工智慧和機器學習(如 Spark)的消息系統而設計的。它們為多個分析客戶端提供服務,從輸入SQL查詢的業務分析師,到BI工具、應用程式和機器學習模型,這些客戶端每秒生成數十個或數千個查詢。

HTAP之前--OLTP 和 OLAP 分離

HTAP 將不同類型的數據處理組合成一個連貫的整體。這兩種處理方式差別很大。事務處理(OLTP)——在資料庫中添加和更新記錄——對單個記錄操作要求非常高的可靠性,以及準確性和速度。“更新Sandy Brown的當前地址”就是事務性更新的一個例子。

另一方面,分析處理意味著非常快速地在一個或多個資料庫表中查找單個記錄、多個記錄或一種類型的記錄的總數。“幫我找到所有住在科羅拉多州並擁有自己房子的訂戶”就是一個分析請求的例子。

第一批有效的資料庫是面向事務的,最初廣泛應用於20世紀70年代和80年代。它們被稱為線上事務處理(OLTP)系統。OLTP系統經過優化,可以在低功率、硬碟較小的電腦上工作——當然,按照今天的標準。唯一的分析是通過列印的報告,這些報告可能根據不同的關鍵欄位進行分類排序,比如按州或郵政編碼。

當後來加入分析時,事務系統已經很忙了,所以數據被覆制到另一臺運行不同軟體的電腦上。這些資料庫稱為線上分析處理(OLAP)資料庫。數據倉庫和數據集市是專門的 OLAP 資料庫,存放用於分析的非操作數據。

使用多種語言對 OLAP 系統上的數據進行查詢,這些語言結合了結構化查詢語言(SQL)。一開始,分析查詢是由個別分析師直接輸入的;最後,使用商業智能(BI)程式來簡化查詢。到最近,軟體應用程式已經可以自己生成查詢了,通常以每秒數千個的速度生成。

這創建了名為提取、轉換和載入(Extract、Transform和Load, ETL)的整個過程和規程,只是為了將數據從 OLTP 移動到 OLAP。作為ETL過程的一部分,數據所有者可以混合使用他們自己的不同資料庫、外部購買的數據、社會信號和其他有用的信息。然而,使用三個不同的筒倉意味著OLAP資料庫中的數據總是過時的--往往是一天到一周的數據。

向 HTAP 變遷

OLTP/ETL/OLAP結構今天仍然被廣泛使用。然而,隨著時間的推移,OLAP和OLTP資料庫(速度較慢)都獲得了以分散式方式工作的能力。也就是說,單個數據表現在可以分佈在多台電腦上。

跨多個伺服器分佈允許數據表變得更大。分散式數據表可以隨時提高性能,只需添加更多的伺服器來處理更多的事務或回覆更多的查詢。一個資料庫——一個或多個數據表,在重疊的數據上提供相關功能——現在可以在靈活大小的機器陣列上運行,可以在本地運行,也可以在雲中運行。

隨著這些功能的增加,在單個資料庫中混合 OLTP 和 OLAP 功能的令人興奮的可能性已經實現。使這成為可能的資料庫軟體在 2014 年被 Gartner 命名為混合事務和分析處理(HTAP)。

這種能力是如此的新,以至於它有許多名稱,包括混合操作分析處理(HOAP)和translytical資料庫(它結合了trans_actions和ana_lytical函數)。HTAP、HOAP 和 translytical 資料庫也被描述為執行操作分析——“使用SLA的分析”,或者必須提供接近實時響應的分析。Gartner 還提出了增強事務處理(ATP),它描述了 HTAP 工作負載的一個子集,包括操作 AI 和機器學習。

HTAP 的優勢

HTAP有很多好處。HTAP創建了一個更簡單的體繫結構,因為兩種不同類型的資料庫以及ETL流程都被單個資料庫所取代。而且,數據拷貝也被消除了。數據不是先存儲在OLTP資料庫中(用於事務),然後再被覆制到 OLAP 中(可能是多次複製,用於分析),而是作為單一來源數據駐留在HTAP資料庫中(A single source of truth resides in the HTAP database)。

這些根本性的改變帶來了額外的好處:操作要簡單得多,因為只有一個系統在運行,而不是幾個。確保單個資料庫的安全比在不同系統上進行多個數據拷貝要容易。而且數據可以是新鮮的——一旦數據被處理,它也可以用於分析。不再需要等待數小時或數天(有時更長時間),也不要再讓數據通過 OLTP 和 ETL 才能進行分析。

HTAP 可以實現非常大的成本效益,同時還可以增加相關的收入和降低成本。架構和操作的簡單性大大節省了成本,更高的性能使現有的創收功能更具生產力,並使新的功能實現成為可能。

物聯網(IoT)從HTAP中獲益匪淺。如果你正在運行一個智能電網,你需要根據最新的數據快速運行。分析師、儀錶盤和應用程式都需要一次性訪問相同的、最新的數據。

沒有 HTAP,機器學習和人工智慧實際上是不切實際的。如果不能從當前和歷史數據中學習,那麼運行機器學習演算法就沒有多大意義。沒有人想運行一個預測性維護程式——假如這個程式告訴你:你公司的油井可能在一周前需要緊急維護,或者昨天有幾個有趣的旅行便宜貨。我相信你該明白,這絲毫沒有意義。

OK,今天的分享就到這裡,歡迎大家關註 StoneDB。

StoneDB 2.0 雲原生分散式實時 HTAP 架構詳細設計以 RFC 形式持續進行,歡迎大家關註我們最新進展,更歡迎給我們開源協作的模式和方法提出改進意見,一起通過開源的方式共建 StoneDB ~

https://github.com/stoneatom/stonedb/issues/436

  • StoneDB 代碼已完全在 Github 開源:

https://github.com/stoneatom/stonedb

  • StoneDB 官網:

https://stonedb.io/


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • ThreadLocal,這個多線程場景中重要的特性,在虛擬線程領域興風作浪,為了應付它,quarkus也是夠拼,今天咱們就來聊聊這個話題,在輕鬆的氣氛中結束《支持JDK19虛擬線程的web框架》系列 ...
  • 按core傳統方式添加 AddJsonFile("appsettings.json") 在windows平臺和ssr工作正常,但是在 ios 和 android 無法用這種方式,因為資源生成方式不一樣. 使用內置資源方式不夠靈活而且 ios 平臺會提示不能複製 json 文件到目錄,於是進行了幾天的... ...
  • (1)基於機器視覺及深度學習理論,研發AI瑕疵識別演算法,應用至刨花板生產線質檢工段,滿足高可靠性、高實時性的刨花板板面質檢需求。(2)基於工業互聯網平臺的異構設備及系統集成,實現數據接入、處理、分析、決策等流程化應用,支持多條刨花板產線集成,助力企業產線協同管理和產線綜合對標。 ...
  • 摘要 C/S端軟體,左側導航菜單+右側頁面切換的佈局很常見。 這篇文章介紹下使用ContentControl控制項和TabControl控制項如何實現基礎的頁面切換。 一、使用ContentControl實現頁面切換 頁面使用UserControl來實現。 基於MVVM框架的思想,利用數據綁定機制,將控 ...
  • windows10系統“無法安裝Windows沙盒:在固件中禁用了虛擬化支持”,另外操作無法安裝hyoer-v該固件中的虛擬化支持被禁用問題。 ####解決辦法: 我這裡以聯想拯救者r720筆記本電腦為例,開啟cpu虛擬化: 1、打開聯想筆記本電腦,重新啟動電腦,在啟動的時候快速按鍵盤上的F2按鍵, ...
  • //源文件 static uint32_t fac_us = 0; // us延時倍乘數 /** * @brief 初始化延遲函數 * 當使用ucos的時候,此函數會初始化ucos的時鐘節拍 * SYSTICK的時鐘固定為AHB時鐘的1/8 * @param SYSCLK 系統時鐘頻率 */ voi ...
  • //源文件 void LedPhyConfig() { RCC->AHB1ENR |= (1<<1); //使能GPIOB //LD1 GPIOB->MODER |= (1<<0*2); //輸出模式 GPIOB->OTYPER &= ~(1<<0); //推輓 GPIOB->OSPEEDR |= ...
  • 背景:內網環境伺服器不能直接安裝工具或服務,可以用一臺外網伺服器同步阿裡雲的yum倉庫,作為本地倉庫 搭建本地yum倉庫 編輯yum配置文件,開啟緩存使用功能,設置緩存路徑 cp /etc/yum.conf /etc/yum.conf.bak vim /etc/yum.conf cachedir=/ ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...