震驚!火爆全網的ChatGPT背後使用的資料庫居然是……

来源:https://www.cnblogs.com/huaweiyun/archive/2023/02/22/17145133.html
-Advertisement-
Play Games

摘要:ChatGPT承認了自己背後使用的資料庫是Cassandra。 OpenAI最近發佈的AI驅動的智能聊天機器人ChatGPT在互聯網上掀起了一陣風暴,熱衷於嘗試這一新AI成果的網民不在少數。ChatGPT針對網友廣泛的問題提供了非常有針對性的回答,其不可思議的能力成為各大媒體平臺的頭條新聞,其 ...


摘要:ChatGPT承認了自己背後使用的資料庫是Cassandra。

OpenAI最近發佈的AI驅動的智能聊天機器人ChatGPT在互聯網上掀起了一陣風暴,熱衷於嘗試這一新AI成果的網民不在少數。ChatGPT針對網友廣泛的問題提供了非常有針對性的回答,其不可思議的能力成為各大媒體平臺的頭條新聞,其應用內部的演算法模型、應用領域、實現原理也被大家廣泛談論和探索,小編作為資料庫從業者,自然也想探秘一番,讓我們一起往下看吧。

狂野的發文

最初是領英上的一篇發文引起了大家的關註,北美資料庫公司DataStax的開發者與Cassandra資料庫開發者帕特裡克在Linkedin上發文說到,這是一個非常狂野與充滿想象力的消息,ChatGPT承認了自己背後使用的資料庫是Cassandra!

簡要來說,帕特裡克問ChatGPT能否給出一些使用Cassandra進行AI模型訓練的例子,這時ChatGPT竟直接回答OpenAI就是使用這一資料庫來儲存訓練數據和模型節點的。為了實現這一目的,OpenAI對於AI開發流程很可能還打造了自己與Cassandra交互使用的一套工具鏈,命名為Cassio。對於上述信息,回答中還給出了工具鏈的源碼與文檔鏈接,最後還生成了一段代碼示例。

這一回答讓人感覺十分真實,不禁讓人懷疑是否真的如ChatGPT所說,火爆全網的AI應用背後使用的資料庫就是Cassandra呢?小編對於這個問題也是十分感興趣,所以進行了一番求證,讓我們往下看。

根據網上的資源,也有人嘗試對AI領域使用Cassandra相關的問題詢問ChatGPT,得到瞭如下的回覆。

ChatGPT承認Cassandra作為分散式資料庫,在實時AI儲存中很有競爭力,在企業級應用中也占有大量份額,已被證實為一個實時AI應用的可靠選擇。同時支持的多種數據類型,在AI應用中有廣泛使用前景。但是,我們需要更加直接的證據來證明Cassandra和ChatGPT的聯繫!

靈魂的拷問

有資源的相關人士,通過正在內測的新必應,嘗試問出OpenAI使用Cassandra的真相。新必應內置增強版的ChatGPT,其對於對話內容獲取與問題解答的能力相較於公開版更為強大。在這裡我們直接拷問新必應OpenAI是否使用了阿帕奇Cassandra資料庫。

新必應的回答先是誇贊了Cassandra一番,隨後也沒有直接肯定OpenAI使用了Cassandra資料庫,但是也提供了一些OpenAI歷史上可能應用過這一資料庫的證據。同時我們看到,回答中顯示有油管視頻展示瞭如何使用GPT-3來操作這一資料庫,OpenAI的高級工程師David Greenbery也曾是阿帕奇基金會下Cassandra項目的代碼提交者。當然,這一回答並不能滿足我們對於OpenAI是否使用了Cassandra的疑問,所以我們更加直接地追問新必應,ChatGPT是否真的使用了Cassandra資料庫。

這一次的回答提供了更多的新信息,但是還是沒有直接承認ChatGPT使用Cassandra資料庫。但是在誇贊Cassandra的同時,也提供了三個在AI領域具體應用的例子,例如幫助編寫數據查詢語句與生成相關數據圖表等。這一深入的回答不禁讓人想到,是否這樣的應用已經存在於OpenAI內部,只是沒有得到公開承認。

同時,目前必應的ChatGPT版本尚未是最終發佈版本,後續回答是否會改變我們不得而知。在新必應最終發佈時,會不會使用Cassandra做業務支撐,始終還是一個未知數。不過我們可以確定的是,在這個AI應用場景下,Cassandra資料庫應是不二選擇。

存在是否真實

DataStax的員工在更深入的探索與交互中,發現ChatGPT提供了更多不存在的鏈接。這一證據也可能表明相關應用證據和工具鏈曾經存在於網路上,只是已經被移除了。但是非常多的證據可能還散佈在網路上。世界上最大的工業自動化公司之一Rockwell Automation也曾發文介紹AI在工業需求預測上的應用。這麼多關於OpenAI把Cassandra應用於AI領域的消息,十分明確地指明瞭這一可能的應用方向與相關前景。至此,我們可以相信,即使OpenAI沒有公開承認其使用的技術棧與資料庫,Cassandra也有相當的概率已經被其應用於相關服務。

真實世界的解決方案

ChatGPT對於Apache Cassandra的介紹已經覆蓋了其非常多的特性,對於應用場景也有了充分的描述,其分散式、高可用、低時延、高容災的特點描述也十分準確。AI的大規模應用離不開海量的數據儲存和處理,一個高效的資料庫在AI模型的訓練和部署階段顯得尤為重要,具備更快的讀取速度、更優越的架構、更強的一致性,才能為人工智慧模型的訓練和應用保駕護航。

例如,有著1750億參數的ChatGPT模型,在訓練過程中需要海量數據。這些數據在分散式訓練的環境下,要怎麼解決諸如讀取速度與一致性等問題呢? 同時,面對全球上億用戶,如何支持ChatGPT所有業務的併發呢?

我們的解決方案是,使用一款高效穩定、大容量的Cassandra資料庫,比如GaussDB(for Cassandra)。

華為雲GaussDB(for Cassandra)是一款基於華為自研的計算存儲分離架構的分散式資料庫,100%相容Cassandra生態,相比較開源的Cassandra版本,具備高可靠、高性能、高安全、極致彈性、便捷管理、強一致性等系列優勢,十分適用於海量併發、流量熱點等場景。

GaussDB (for Cassandra)在AI領域的應用探究

分散式難題

GaussDB(for Cassandra)的分散式強一致性特點和華為雲支持的計算節點擴容和秒級儲存擴容,為AI模型訓練提供強大支持。多節點同時存取數據時,相比開源Cassandra的最終一致性,GaussDB(for Cassandra)提供的強一致性特征保證每個訓練節點實時獲取數據的一致,為訓練過程輸入的數據提供可靠性保障。

數據結構

Cassandra的寬表結構,提供了靈活的數據定義。在儲存原始數據輸入時更具優勢,也適用於多變的AI訓練場景,適合AI模型的下游細粒度優化與fine-tuning任務。

長時間訓練

對於長時間訓練的大模型項目,資料庫的高可用異常關鍵,資料庫的波動將會極大地影響模型訓練進度。對此,GaussDB(for Cassnadra) 採用了三副本形態,數據安全可靠,無丟失風險。同時支持大容量PB級數據存儲,存儲容量秒級擴容,對線上業務無干擾,無中斷。

複雜查詢

針對模型的下游針對性訓練與魯棒性檢驗,需要提取部分具有特殊屬性的數據。GaussDB(for Cassandra)對大數據量查詢性能進行了優化,引入視圖增強特性,並對錶結構進行優化設計,滿足了信息流、內容搜索等業務的查詢需求。同時,Lucene引擎全新解決方案已經上線測試,支持更多的文本複雜內容查詢場景,完美彌補NoSQL資料庫弱查詢的短板。

超高併發

對於全球億級用戶訪問ChatGPT的局面,GaussDB(for Cassandra)也能對大流量提供很好的支撐。使用的LSM tree儲存引擎,對於高寫入場景有很好的效果,既能高效儲存用戶數據,又支持快速離線導出分析,為超高併發業務提供支持,還支持數據變更捕獲和實時分析。

綜上所述,我們抽絲剝繭探秘了ChatGPT背後使用的資料庫,也探索了GaussDB(for Cassandra)在AI領域的應用實踐,相信大家對ChatGPT和GaussDB(for Cassandra)已經有了初步的瞭解,其實GaussDB(for Cassandra)早已拓展到了社會服務的各個方面,更多的應用場景等待著大家的探索。

所以,支持ChatGPT後臺的資料庫,為什麼不能是GaussDB(for Cassandra)呢?

 

點擊關註,第一時間瞭解華為雲新鮮技術~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 概述 面臨一個複雜對象的創建工作,通常由各個部分的子對象用一定的演算法構成。子部件(對象)比較多,對象不能當作一個完整的對象或者產品使用(郵件:發件人,收件人、抄送人、主題、郵件內容)子部件需要按照一定的順序賦值才有一定的意義,在某個子部件沒有賦值之前,另一個子部件就無法賦值。 類圖 註:該類圖來源網 ...
  • 車家號作為一個PGC平臺,聚合了全網大多數汽車行業的專家及意見領袖,每天為用戶提供大量的汽車類優質內容。用戶日瀏覽量在幾千萬級,後端的介面也承載億級的日訪問量。 車家號WEB、API、後臺管理等系統採用 .net4.5進行開發。一直以來為用戶及調用方提供了穩定的服務。由於其只能運行於W... ...
  • Nginx負載均衡與代理 一、代理概述 代理:外賣/中介/中間商 用戶無法直接做某些事情,通過中介進行處理,這個中介就是代理 用戶 >代理 >web節點,後面只有一個節點,一般使用的是nginx代理功能即可,後面如果有多個節點(也就是集群)的話,需要使用nginx負載均衡功能 二、代理分類 | 代理 ...
  • 使用騰訊雲或者阿裡雲的伺服器配置MariaDB資料庫環境的時候,用Navicat遠程連接在Centos7的Linux上配置MariaDB資料庫環境的時候一直出錯誤代碼 "2002 - Can't connect to server on '' (10060)" 可能原因如下 1.是否有許可權訪問Mar ...
  • window系統下 按此鍵 執行此操作 Command + Shift + B 顯示或隱藏收藏夾欄 Command + Shift + C 打開開發人員工具 Command + D 將當前選項卡另存為收藏夾 Command + Shift + D 在新文件夾中將所有打開的標簽頁另存為收藏夾 Comm ...
  • 需求:批量獲取文本指定內容所在行以下內容(含當前行) 解決方案:使用Powershell腳本處理 案例: 獲取當前文件夾下所有txt文件 含文本"4"所在行以下內容(含當前行) 如果有多行包含文本"4",取第一個所在行以下內容(含當前行) 1.查看當前文件夾內容 2.右鍵執行腳本刪除文件指定內容所在 ...
  • 環境 CPU:Phytium,S2500/64 C00 內核版本:4.19.90-25.10 網訊網卡:txgbe 共兩台設備,光纖直連 復現步驟 設備A、B分別執行以下操作,即可復現 modprobe fcoe systemctl start lldpad systemctl start fcoe ...
  • 本部分介紹可編程並行介面晶元8255A&&可編程定時器、計時器晶元8253、8254,增加了一些具體系統的設計案例。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...