向量資料庫Faiss的搭建與使用

-Advertisement-

向量資料庫Faiss是Facebook AI研究院開發的一種高效的相似性搜索和聚類的庫。它能夠快速處理大規模數據，並且支持在高維空間中進行相似性搜索。本文將介紹如何搭建Faiss環境並提供一個簡單的使用示例。 ...

向量資料庫Faiss是Facebook AI研究院開發的一種高效的相似性搜索和聚類的庫。它能夠快速處理大規模數據，並且支持在高維空間中進行相似性搜索。本文將介紹如何搭建Faiss環境並提供一個簡單的使用示例。

Faiss的安裝

首先，我們需要在我們的系統上安裝Faiss。Faiss支持Linux，macOS和Windows操作系統，可以通過Python的pip包管理器進行安裝。在終端中輸入以下命令：

pip install faiss-cpu

如果你的系統有NVIDIA的GPU並且已經安裝了CUDA，你可以選擇安裝支持GPU的版本：

pip install faiss-gpu

Faiss的基本使用

安裝完Faiss之後，我們可以開始創建我們的第一個向量資料庫。首先，我們需要導入Faiss庫和numpy庫，因為Faiss的輸入數據需要是numpy數組。

import numpy as np
import faiss

然後，我們可以生成一些隨機數據作為我們的向量資料庫。在這個例子中，我們生成了10000個128維的向量。

d = 128                            # dimension
nb = 10000                         # database size
np.random.seed(1234)             # make reproducible
xb = np.random.random((nb, d)).astype('float32')

接下來，我們需要創建一個索引。索引是Faiss進行高效搜索的關鍵。在這個例子中，我們使用最簡單的L2距離索引。

index = faiss.IndexFlatL2(d)   # build the index
print(index.is_trained)

然後，我們可以將我們的數據添加到索引中。

index.add(xb)                  # add vectors to the index
print(index.ntotal)

現在，我們的向量資料庫已經準備好了，我們可以進行搜索了。我們生成了5個查詢向量，並且我們希望找到每個查詢向量的最近的4個向量。

nq = 5                          # number of query vectors
k = 4                           # we want 4 similar vectors
Xq = np.random.random((nq, d)).astype('float32')
D, I = index.search(Xq, k)     # sanity check
print(I)
print(D)

在這個例子中，I是一個數組，它包含了每個查詢向量的最近的4個向量的索引。D是一個數組，它包含了這些向量的距離。

Faiss的強大之處在於它可以處理任何可以表示為向量的數據，包括圖片和文件。在這個部分，我們將介紹如何使用Faiss進行圖片和文件的搜索。

圖片搜索

在進行圖片搜索時，我們首先需要將圖片轉換為向量。這通常通過深度學習模型，如CNN，來實現。這些模型可以將圖片的視覺內容編碼為一個向量，這個向量可以捕獲圖片的重要特征。

以下是一個簡單的例子，我們使用預訓練的ResNet模型將圖片轉換為向量：

from torchvision import models, transforms
from PIL import Image

# Load the pretrained model
model = models.resnet50(pretrained=True)
model = model.eval()

# Define the image transformations
transform = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
])

# Load the image
image = Image.open('image.jpg')

# Apply the transformations and get the image vector
image = transform(image).unsqueeze(0)
image_vector = model(image).detach().numpy()

然後，我們可以將這個向量添加到Faiss的索引中，就像我們在前面的例子中做的那樣。當我們需要搜索相似的圖片時，我們可以將查詢圖片也轉換為向量，然後使用Faiss進行搜索。

文件搜索

對於文件搜索，我們也需要將文件轉換為向量。這通常通過自然語言處理模型，如BERT，來實現。這些模型可以將文本內容編碼為一個向量，這個向量可以捕獲文本的語義信息。

以下是一個簡單的例子，我們使用預訓練的BERT模型將文本文件轉換為向量：

from transformers import BertModel, BertTokenizer

# Load the pretrained model and tokenizer
model = BertModel.from_pretrained('bert-base-uncased')
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Load the text file
with open('file.txt', 'r') as f:
    text = f.read()

# Tokenize the text and get the text vector
inputs = tokenizer(text, return_tensors='pt')
outputs = model(**inputs)
text_vector = outputs.last_hidden_state.mean(dim=1).detach().numpy()

然後，我們可以將這個向量添加到Faiss的索引中，就像我們在前面的例子中做的那樣。當我們需要搜索相似的文件時，我們可以將查詢文件也轉換為向量，然後使用Faiss進行搜索。

結論

通過將圖片和文件轉換為向量，我們可以使用Faiss進行高效的搜索。這種方法不僅可以應用於圖片和文件，還可以應用於任何可以表示為向量的數據，如音頻，視頻等。這使得Faiss成為處理大規模數據和進行相似性搜索的強大工具。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

shell腳本-批量主機執行命令(expect)

# shell腳本-批量主機執行命令(expect) ## 準備 > 上次連接多台伺服器使用ssh-keygen，24機器去連接22、25，所以存在.ssh/authorized_keys > > 1.如果有.ssh/authorized_keys該文件則先刪除 > > ``` > rm -rf.s ...
shell腳本-監控多台伺服器磁碟利用率

# shell腳本-監控多台伺服器磁碟利用率 ## 介紹 > 第一步：實現免密登錄伺服器，為後續腳本免密登錄做好準備。 > > 第二步：把要監控伺服器的ip地址 root用戶埠port 寫入host.info文件中以便後續腳本從這個文件讀取伺服器信息。 > > 第三步：寫shell腳本，先從h ...
使用Python讀取圖片

# 一、Python學習兩大道具 ## 1. dir()工具 - 作用：支持打開package，看到裡面的工具函數 - 示例： (1) 輸出torch庫包含的函數 ```python dir(torch) ``` (2) 輸出torch.AVG函數中的參數 ```python dir(torch.A ...
不小心刪除服務[null]後，git bash出現錯誤，如何解決？

# 不小心刪除服務[null]後，git bash出現錯誤，如何解決？ # 錯誤描述：打開 git bash、msys2都會出現錯誤「bash: /dev/null: No such device or address」 # 問題定位： 1.使用搜索引擎搜索「bash: /dev/null: No ...
選讀SQL經典實例筆記05_日期運算（下）

![](https://img2023.cnblogs.com/blog/3076680/202307/3076680-20230711143234011-1452662689.png) # 1. 兩個日期之間相差的月份和年份 ## 1.1. DB2 ## 1.2. MySQL ## 1.3. sq ...
【技術積累】Mysql中的SQL語言【技術篇】【一】

博客推行版本更新，成果積累制度，已經寫過的博客還會再次更新，不斷地琢磨，高質量高數量都是要追求的，工匠精神是學習必不可少的精神。因此，大家有何建議歡迎在評論區踴躍發言，你們的支持是我最大的動力，你們敢投，我就敢肝 ...
postgresql序列重覆問題處理

## 問題在執行數據插入時，postgresql 提示*more than one owned sequence found*錯誤。這個和之前文章中寫的[序列編號錯亂](https://www.cnblogs.com/podolski/p/17349217.html)不同，是由數據表的一個列生成了 ...
三問三答：細數GaussDB遷移的核心技術

摘要：本文從客戶視角的三個疑問出發，一起瞭解華為雲GaussDB資料庫的遷移解決方案具有哪些核心技術，如何做到讓客戶遷移過程安心、放心、省心。遷移是資料庫選型過程中客戶最為關心的話題之一，經過大量的溝通調研，我們總結客戶在資料庫遷移方面的主要期望：遷移不影響業務運行（安心）、遷移不能丟數據（放心） ...