向量資料庫是如何工作的？_ZenDei技術網路在線

向量資料庫是如何工作的？

-Advertisement-

向量資料庫和 Embedding 是當前 AI 領域的熱門話題。 Pinecone 是一家向量資料庫公司，剛剛以約 10 億美元的估值籌集了 1 億美元。 Shopify、Brex、Hubspot 等公司都在他們的 AI 應用程式中使用向量資料庫和 Embedding。那麼，它們究竟是什... ...

向量資料庫和 Embedding 是當前 AI 領域的熱門話題。

Pinecone 是一家向量資料庫公司，剛剛以約 10 億美元的估值籌集了 1 億美元。

Shopify、Brex、Hubspot 等公司都在他們的 AI 應用程式中使用向量資料庫和 Embedding。那麼，它們究竟是什麼，它們是如何工作的，以及為什麼它們在 AI 中如此重要呢？讓我們一探究竟。

我們先看第一個問題，什麼是 Embedding？你可能在 Twitter 上已經看到這個詞被無數次提及。

簡單來說，Embedding 就是一個多維向量數組，由系列數字組成。它們能夠代表任何東西，比如文本、音樂、視頻等等。我們這裡將主要關註文本。

創建 Embedding 的過程非常簡單。這主要依靠 Embedding 模型（例如：OpenAI 的 Ada）。

你將你的文本發送給模型，模型會為你生成該數據的向量結果，這可以被存儲併在之後使用。

Embedding 之所以重要，是因為它們賦予我們進行語義搜索的能力，也就是通過相似性進行搜索，比如通過文本的含義。

因此，在這個例子中，我們可以在一個向量空間上表示“男人”“國王”“女人”和“王後”，你可以非常容易地看到它們在向量空間之間的關係。

來看一個更直觀的例子：

假設你是一個有一大箱玩具的小孩。現在，你想找出一些類似的玩具，比如一個玩具汽車和一個玩具公車。它們都是交通工具，因此它們是相似的。

這就是所謂的 “語義相似性”—— 表示某種程度上事物具有相似的含義或想法。

現在假設你有兩個相關聯但並不完全相同的玩具，比如一個玩具汽車和一個玩具公路。它們並不完全相同，但因為汽車通常在公路上行駛，所以它們是相互關聯的。

那麼，Embedding 為何如此重要呢？主要是由於大語言模型（LLM）存在上下文限制。在一個理想的世界中，我們可以在一個 LLM 提示中放入無限數量的詞語。但是，正如許多人所知，目前我們還做不到。以 OpenAI 的 GPT 為例，它限制在大約在 4096 - 32k 個 token。

因此，由於其 “記憶體”（即我們可以填充到其 token 的詞語的數量），我們與 LLM 的交互方式受到了嚴重限制。這就是為什麼你不能將一個 PDF 文件複製粘貼到 ChatGPT 中並要求它進行總結的原因。（當然，現在由於有了 gpt4-32k，你可能可以做到這一點了）

那麼，怎麼把 Embedding 和 LLM 關聯起來解決 token 長度限制的問題呢？實際上，我們可以利用 Embedding，只將相關的文本註入到 LLM 的上下文視窗中。

讓我們來看一個具體的例子：

假設你有一個龐大的 PDF 文件，可能是一份國會聽證會的記錄（呵呵）。你有點懶，不想閱讀整個文件，而且由於其頁數眾多，你無法複製粘貼整個內容。這就是一個 Embedding 的典型使用場景。

所以你將 PDF 的文本內容先分成塊，然後藉助 Embedding 將文本塊變成向量數組，並將其存儲在資料庫中。

在存儲分塊的向量數組時，通常還需要把向量數組和文本塊之間的關係一起存儲，這樣後面我們按照向量檢索出相似的向量數組後，能找出對應的文本塊，一個參考的數據結構類似於這樣：

{

[1,2,3,34]: '文本塊1',

[2,3,4,56]: '文本塊2',

[4,5,8,23]: '文本塊3',

……

}

現在你提出一個問題：“他們對 xyz 說了什麼？”我們先把問題“他們對 xyz 說了什麼？”藉助 Embedding 變成向量數組，比如[1,2,3]。

現在我們有兩個向量：你的問題 [1,2,3] 和 PDF [1,2,3,34]，然後，我們利用相似性搜索，將問題向量與我們龐大的 PDF 向量進行比較。OpenAI 的 Embedding 推薦使用的是餘弦相似度。

好了，現在我們有最相關的三個 Embedding 及其文本，我們現在可以利用這三個輸出，並配合一些提示工程將其輸入到 LLM 中。例如：

已知我們有上下文：文本塊 1，文本塊 2，文本塊 3。

現在有用戶的問題：他們對 xyz 說了什麼？

請根據給定的上下文，如實回答用戶的問題。

如果你不能回答，那麼如實告訴用戶“我無法回答這個問題”。

就這樣，LLM 會從你的 PDF 中獲取相關的文本部分，然後嘗試如實回答你的問題。

這就簡單的闡述了 Embedding 和 LLM 如何為任何形式的數據提供相當強大的類似聊天的能力。這也是所有那些“與你的網站/PDF/等等進行對話” 的功能如何工作的！

請註意 Embedding 並非 FINE-TUNING。

作者丨Sully

本文來自博客園，作者：古道輕風，轉載請註明原文鏈接：https://www.cnblogs.com/88223100/p/How-does-a-vector-database-work.html

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

FTL沒有映射，跟發工資沒有錢有什麼區別

# DNS功能變數名稱解析 ## 1、nslookup > 通過nslookup命令查看功能變數名稱的解析關係 > > 1.該命令需要單獨安裝dns的套件軟體包 > > yum install bind-utils -y > > 2.使用nslookup命令 > > nslookup > > www.baidu.c ...
linux-NFS遠程掛載

# NFS遠程掛載 ## 一、概述 > NFS是一種基於TCP/IP 傳輸的網路文件系統協議。通過使用NFS協議，客戶機可以像訪問本地目錄一樣訪問遠程伺服器中的共用資源 > NAS存儲: NFS服務的實現依賴於RPC (Remote Process Call，遠端過程調用)機制，以完成遠程到本地的映 ...
【後端面經-資料庫】MySQL的事務隔離級別簡介

[TOC](【後端面經-資料庫】MySQL的事務隔離級別簡介) ## 0. 事務的概念事務指的是一連串的集中操作指令，一個事務的執行必須執行完所有的動作才能算作執行結束。事務具有四個特點，簡記作`ACID`： - `A`-Atomicity: 原子性，事務的執行必須保證所有的動作都執行完畢； - ...
Hive常見時間日期函數的使用與問題整理

hive本身提供的時間函數已經很豐富了，基本上能滿足我們所有的需求，一些特殊需求也可以通過增加一些數學邏輯實現出來。 ...
2種GaussDB(DWS)查看作業運行信息方式

摘要：提供以作業基本單位的作業統計視圖pgxc_session_wlmstat，便於用戶觀察運行作業和排隊作業信息。本文分享自華為雲社區《GaussDB(DWS)如何查看作業運行信息》，作者：幕後小黑爪。用戶反饋，出現連接數告警，作業併發數高，超過資源池限制，與實際配置不符。經過瞭解，用戶使用p ...
HStore表全瞭解：實時入庫與高效查詢利器

摘要：本文章將從使用者角度介紹HStore概念以及使用。本文分享自華為雲社區《GaussDB(DWS)HStore表講解》，作者：大威天龍:- 。 HStore表簡介面對實時入庫和實時查詢要求越來越高的趨勢，已有的列存儲無法支持併發更新入庫，行存查詢性能無法做到實時返回且空間壓縮表現不佳。Gau ...
大文件上傳功能在標簽服務的簡單應用和代碼實現

各位看官大家好，今天給大家分享的又是一篇實戰文章，希望大家能夠喜歡。目前「[袋鼠雲客戶數據洞察平臺](https://www.dtstack.com/easydigit/userinsight?src=szsm)」標簽服務的群組按種類劃分，可以分為三大類，分別是實時群組、[動態群組](https: ...
MySQL中都有哪些鎖？

# MySQL中都有哪些鎖 ## 為什麼需要鎖在電腦系統中，鎖（`Lock`）是一種同步機制，用於控制對共用資源的訪問。它確保在任何給定時間內只有一個線程能夠訪問受保護的共用資源，從而避免了由併發訪問導致的數據競爭和不一致問題。同樣，在資料庫系統中，鎖也扮演著重要角色，是其與文件系統不同的關鍵 ...