向量資料庫是如何工作的?

来源:https://www.cnblogs.com/88223100/archive/2023/06/14/How-does-a-vector-database-work.html
-Advertisement-
Play Games

向量資料庫和 Embedding 是當前 AI 領域的熱門話題。 Pinecone 是一家向量資料庫公司,剛剛以約 10 億美元的估值籌集了 1 億美元。 Shopify、Brex、Hubspot 等公司都在他們的 AI 應用程式中使用向量資料庫和 Embedding。那麼,它們究竟是什... ...


 

向量資料庫和 Embedding 是當前 AI 領域的熱門話題。

 

Pinecone 是一家向量資料庫公司,剛剛以約 10 億美元的估值籌集了 1 億美元。

 

Shopify、Brex、Hubspot 等公司都在他們的 AI 應用程式中使用向量資料庫和 Embedding。那麼,它們究竟是什麼,它們是如何工作的,以及為什麼它們在 AI 中如此重要呢?讓我們一探究竟。

 

我們先看第一個問題,什麼是 Embedding?你可能在 Twitter 上已經看到這個詞被無數次提及。

 

簡單來說,Embedding 就是一個多維向量數組,由系列數字組成。它們能夠代表任何東西,比如文本、音樂、視頻等等。我們這裡將主要關註文本。

 

圖片

 

創建 Embedding 的過程非常簡單。這主要依靠 Embedding 模型(例如:OpenAI 的 Ada)。

 

你將你的文本發送給模型,模型會為你生成該數據的向量結果,這可以被存儲併在之後使用。

 

Embedding 之所以重要,是因為它們賦予我們進行語義搜索的能力,也就是通過相似性進行搜索,比如通過文本的含義。

 

因此,在這個例子中,我們可以在一個向量空間上表示“男人”“國王”“女人”和“王後”,你可以非常容易地看到它們在向量空間之間的關係。

 

圖片

 

來看一個更直觀的例子:

 

假設你是一個有一大箱玩具的小孩。現在,你想找出一些類似的玩具,比如一個玩具汽車和一個玩具公車。它們都是交通工具,因此它們是相似的。

 

這就是所謂的 “語義相似性”—— 表示某種程度上事物具有相似的含義或想法

 

現在假設你有兩個相關聯但並不完全相同的玩具,比如一個玩具汽車和一個玩具公路。它們並不完全相同,但因為汽車通常在公路上行駛,所以它們是相互關聯的。 

 

那麼,Embedding 為何如此重要呢?主要是由於大語言模型(LLM)存在上下文限制。在一個理想的世界中,我們可以在一個 LLM 提示中放入無限數量的詞語。但是,正如許多人所知,目前我們還做不到。以 OpenAI 的 GPT 為例,它限制在大約在 4096 - 32k 個 token。

 

因此,由於其 “記憶體”(即我們可以填充到其 token 的詞語的數量),我們與 LLM 的交互方式受到了嚴重限制。這就是為什麼你不能將一個 PDF 文件複製粘貼到 ChatGPT 中並要求它進行總結的原因。(當然,現在由於有了 gpt4-32k,你可能可以做到這一點了)

 

那麼,怎麼把 Embedding 和 LLM 關聯起來解決 token 長度限制的問題呢?實際上,我們可以利用 Embedding,只將相關的文本註入到 LLM 的上下文視窗中。

 

讓我們來看一個具體的例子:

 

假設你有一個龐大的 PDF 文件,可能是一份國會聽證會的記錄(呵呵)。你有點懶,不想閱讀整個文件,而且由於其頁數眾多,你無法複製粘貼整個內容。這就是一個 Embedding 的典型使用場景。

 

所以你將 PDF 的文本內容先分成塊,然後藉助 Embedding 將文本塊變成向量數組,並將其存儲在資料庫中。

 

在存儲分塊的向量數組時,通常還需要把向量數組和文本塊之間的關係一起存儲,這樣後面我們按照向量檢索出相似的向量數組後,能找出對應的文本塊,一個參考的數據結構類似於這樣:

 

{

[1,2,3,34]: '文本塊1',

[2,3,4,56]: '文本塊2',

[4,5,8,23]: '文本塊3',

……

 

 

}

 

現在你提出一個問題:“他們對 xyz 說了什麼?”我們先把問題“他們對 xyz 說了什麼?”藉助 Embedding 變成向量數組,比如[1,2,3]。

 

現在我們有兩個向量:你的問題 [1,2,3] 和 PDF [1,2,3,34],然後,我們利用相似性搜索,將問題向量與我們龐大的 PDF 向量進行比較。OpenAI 的 Embedding 推薦使用的是餘弦相似度。

 

圖片

 

好了,現在我們有最相關的三個 Embedding 及其文本,我們現在可以利用這三個輸出,並配合一些提示工程將其輸入到 LLM 中。例如:

 

已知我們有上下文:文本塊 1,文本塊 2,文本塊 3。

 

現在有用戶的問題:他們對 xyz 說了什麼?

 

請根據給定的上下文,如實回答用戶的問題。

 

如果你不能回答,那麼如實告訴用戶“我無法回答這個問題”。

 

就這樣,LLM 會從你的 PDF 中獲取相關的文本部分,然後嘗試如實回答你的問題。

 

這就簡單的闡述了 Embedding 和 LLM 如何為任何形式的數據提供相當強大的類似聊天的能力。這也是所有那些“與你的網站/PDF/等等進行對話” 的功能如何工作的!

 

請註意 Embedding 並非 FINE-TUNING。

 

作者丨Sully 

本文來自博客園,作者:古道輕風,轉載請註明原文鏈接:https://www.cnblogs.com/88223100/p/How-does-a-vector-database-work.html


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • # DNS功能變數名稱解析 ## 1、nslookup > 通過nslookup命令查看功能變數名稱的解析關係 > > 1.該命令需要單獨安裝dns的套件軟體包 > > yum install bind-utils -y > > 2.使用nslookup命令 > > nslookup > > www.baidu.c ...
  • # NFS遠程掛載 ## 一、概述 > NFS是一種基於TCP/IP 傳輸的網路文件系統協議。通過使用NFS協議,客戶機可以像訪問本地目錄一樣訪問遠程伺服器中的共用資源 > NAS存儲: NFS服務的實現依賴於RPC (Remote Process Call,遠端過程調用)機制,以完成遠程到本地的映 ...
  • [TOC](【後端面經-資料庫】MySQL的事務隔離級別簡介) ## 0. 事務的概念 事務指的是一連串的集中操作指令,一個事務的執行必須執行完所有的動作才能算作執行結束。事務具有四個特點,簡記作`ACID`: - `A`-Atomicity: 原子性,事務的執行必須保證所有的動作都執行完畢; - ...
  • hive本身提供的時間函數已經很豐富了,基本上能滿足我們所有的需求,一些特殊需求也可以通過增加一些數學邏輯實現出來。 ...
  • 摘要:提供以作業基本單位的作業統計視圖pgxc_session_wlmstat,便於用戶觀察運行作業和排隊作業信息。 本文分享自華為雲社區《GaussDB(DWS)如何查看作業運行信息》,作者:幕後小黑爪。 用戶反饋,出現連接數告警,作業併發數高,超過資源池限制,與實際配置不符。經過瞭解,用戶使用p ...
  • 摘要:本文章將從使用者角度介紹HStore概念以及使用。 本文分享自華為雲社區《GaussDB(DWS)HStore表講解》,作者:大威天龍:- 。 HStore表簡介 面對實時入庫和實時查詢要求越來越高的趨勢,已有的列存儲無法支持併發更新入庫,行存查詢性能無法做到實時返回且空間壓縮表現不佳。Gau ...
  • 各位看官大家好,今天給大家分享的又是一篇實戰文章,希望大家能夠喜歡。 目前「[袋鼠雲客戶數據洞察平臺](https://www.dtstack.com/easydigit/userinsight?src=szsm)」標簽服務的群組按種類劃分,可以分為三大類,分別是實時群組、[動態群組](https: ...
  • # MySQL中都有哪些鎖 ## 為什麼需要鎖 在電腦系統中,鎖(`Lock`)是一種同步機制,用於控制對共用資源的訪問。它確保在任何給定時間內只有一個線程能夠訪問受保護的共用資源,從而避免了由併發訪問導致的數據競爭和不一致問題。 同樣,在資料庫系統中,鎖也扮演著重要角色,是其與文件系統不同的關鍵 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...