圖書搜索領域重大突破!用Apache SeaTunnel、Milvus和OpenAI提高書名相似度搜索精準度和效率

来源:https://www.cnblogs.com/seatunnel/archive/2023/06/26/17506521.html
-Advertisement-
Play Games

![file](https://img2023.cnblogs.com/other/3195851/202306/3195851-20230626190205684-2107268424.jpg) 作者 | 劉廣東,Apache SeaTunnel Committer ## 背景 目前,現有的圖書搜 ...


file

作者 | 劉廣東,Apache SeaTunnel Committer

背景

目前,現有的圖書搜索解決方案(例如公共圖書館使用的解決方案)十分依賴於關鍵詞匹配,而不是對書名實際內容的語義理解。因此會導致搜索結果並不能很好地滿足我們的需求,甚至與我們期待的結果大相徑庭。這是因為僅僅依靠關鍵詞匹配是不夠的,因為它無法實現語義理解,也就無法理解搜索者真正的意圖。

那麼,有更好的方法可以讓我們更加準確、高效地進行圖書搜索嗎?答案是有!本文中,我將介紹如何結合使用Apache SeaTunnel、Milvus和OpenAI進行相似度搜索,實現對整個書名的語義理解,從而讓搜索結果更加精準。

使用訓練有素的模型來表示輸入數據被稱為語義搜索,這種方法可以擴展到各種不同的基於文本的用例,包括異常檢測和文檔搜索。因此,本文所介紹的技術可以為圖書搜索領域帶來重大的突破和影響。

接下來我來簡單介紹幾個與本文相關的概念和用到的工具/平臺,便於大家更好地理解本文。

什麼是Apache SeaTunnel

Apache SeaTunnel是一個開源的、高性能的、分散式的數據管理和計算平臺。它是由Apache基金會支持的一個頂級項目,能夠處理海量數據、提供實時的數據查詢和計算,並支持多種數據源和格式。SeaTunnel的目標是提供一個可擴展的、面向企業的數據管理和集成平臺,以滿足各種大規模數據處理需求。

什麼是Milvus

Milvus是一個開源的類似向量搜索引擎,它支持海量向量的存儲、檢索和相似度搜索,是一個針對大規模向量數據的高性能、低成本的解決方案。Milvus可以在多種場景下使用,如推薦系統、圖像搜索、音樂推薦和自然語言處理等。

什麼是OpenAI

ChatGPT是一種基於GPT(Generative Pre-trained Transformer)模型的對話生成系統,是由OpenAI開發的。該系統主要使用了自然語言處理、深度學習等技術,可以生成與人類對話相似的自然語言文本。ChatGPT的應用範圍很廣,可以用於開發智能客服、聊天機器人、智能助手等應用程式,也可以用於語言模型的研究和開發。近年來,ChatGPT已經成為了自然語言處理領域的研究熱點之一。

什麼是LLM(Large Language Model)

大語言模型(Large Language Model)是一種基於深度學習技術的自然語言處理模型,它可以對一段給定的文本進行分析和理解,並生成與之相關的文本內容。大語言模型通常使用深度神經網路來學習自然語言的語法和語義規則,並將文本數據轉換為連續向量空間中的向量表示。在訓練過程中,大語言模型利用大量的文本數據來學習語言模式和統計規律,從而可以生成高質量的文本內容,如文章、新聞、對話等。大語言模型的應用領域非常廣泛,包括機器翻譯、文本生成、問答系統、語音識別等。目前,許多開放源代碼深度學習框架都提供了大語言模型的實現,如TensorFlow、PyTorch等。

教程

重點來了!我將展示如何將Apache SeaTunnel、OpenAI的Embedding API與我們的矢量資料庫結合使用,來通過語義搜索整個書名。

準備步驟

在實驗之前,我們需要去官網獲取一個OpenAI的token,然後在去部署一個Milvus的實驗環境。我們還需要準備好將用於這個例子的數據。你可以從這裡下載數據。

通過SeaTunnel將數據導入Milvus
首先,將book.csv放到/tmp/milvus_test/book下,然後配置任務配置為milvus.conf並放到config下。請參考快速使用指南

env {
  # You can set engine configuration here
  execution.parallelism = 1
  job.mode = "BATCH"
  checkpoint.interval = 5000
  #execution.checkpoint.data-uri = "hdfs://localhost:9000/checkpoint"
}

source {
  # This is a example source plugin **only for test and demonstrate the feature source plugin**
  LocalFile {
    schema {
      fields {
        bookID = string
        title_1 = string
        title_2 = string
      }
    }
    path = "/tmp/milvus_test/book"
    file_format_type = "csv"
  }
}

transform {
}

sink {
  Milvus {
    milvus_host = localhost
    milvus_port = 19530
    username = root
    password = Milvus
    collection_name = title_db
    openai_engine = text-embedding-ada-002
    openai_api_key = sk-xxxx
    embeddings_fields = title_2
  }
}

執行如下命令:

./bin/SeaTunnel.sh --config ./config/milvus.conf -e local

查看資料庫中數據,可以看到已經有數據寫入進去。
file

然後使用如下代碼通過語義搜索書名:

import json
import random
import openai
import time
from pymilvus import connections, FieldSchema, CollectionSchema, DataType, Collection, utility

COLLECTION_NAME = 'title_db'  # Collection name
DIMENSION = 1536  # Embeddings size
COUNT = 100  # How many titles to embed and insert.
MILVUS_HOST = 'localhost'  # Milvus server URI
MILVUS_PORT = '19530'
OPENAI_ENGINE = 'text-embedding-ada-002'  # Which engine to use
openai.api_key = 'sk-******'  # Use your own Open AI API Key here

connections.connect(host=MILVUS_HOST, port=MILVUS_PORT)

collection = Collection(name=COLLECTION_NAME)

collection.load()


def embed(text):
    return openai.Embedding.create(
        input=text, 
        engine=OPENAI_ENGINE)["data"][0]["embedding"]


def search(text):
    # Search parameters for the index
    search_params={
        "metric_type": "L2"
    }

    results=collection.search(
        data=[embed(text)],  # Embeded search value
        anns_field="title_2",  # Search across embeddings
        param=search_params,
        limit=5,  # Limit to five results per search
        output_fields=['title_1']  # Include title field in result
    )

    ret=[]
    for hit in results[0]:
        row=[]
        row.extend([hit.id, hit.score, hit.entity.get('title_1')])  # Get the id, distance, and title for the results
        ret.append(row)
    return ret

search_terms=['self-improvement', 'landscape']

for x in search_terms:
    print('Search term:', x)
    for result in search(x):
        print(result)
    print()


搜索結果如下:

Search term: self-improvement
[96, 0.4079835116863251, "The Dance of Intimacy: A Woman's Guide to Courageous Acts of Change in Key Relationships"]
[56, 0.41880303621292114, 'Nicomachean Ethics']
[76, 0.4309804439544678, 'Possession']
[19, 0.43588975071907043, 'Vanity Fair']
[7, 0.4423919916152954, 'Knowledge Is Power (The Amazing Days of Abby Hayes: #15)']

Search term: landscape
[9, 0.3023473024368286, 'The Lay of the Land']
[1, 0.3906732499599457, 'The Angry Hills']
[78, 0.392495334148407, 'Cloud Atlas']
[95, 0.39346450567245483, 'Alien']
[94, 0.399422287940979, 'The Known World']

如果我們按照之前的老方法——關鍵詞搜索,書名中必須包含自我提升、提升等關鍵詞;但是提供大模型進行語義級別的理解,則可以檢索到更加符合我們需求的書名。比如在上面的例子中,我們搜索的關鍵詞為self-improvement(自我提升),展示的書名《關係之舞:既親密又獨立的相處藝術》、《尼各馬可倫理學》等雖然不包含相關關鍵詞,卻很明顯更加符合我們的要求。
可見,我們利用Apache SeaTunnel、Milvus和OpenAI,通過大語言模型的方法,可以實現更加精準的書名相似度搜素,為圖書搜索領域帶來重大的技術突破,同時對於語義理解也提供了有價值的參考,希望可以給大家帶來一些啟發。

相關鏈接

本文由 白鯨開源 提供發佈支持!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 支持.Net/.Net Core/.Net Framework,可以部署在Docker, Windows, Linux, Mac。 Redis作為一款主流的緩存工具在業內已廣受歡迎。本文將會介紹操作Redis的一種最簡單的方法。 本文假定你身邊已有安裝好的Redis應用,該應用的網路地址為(ip+p ...
  • 問題:在 Linux 下的 vim 編輯過程中,由於某種原因異常退出正在編輯的文件,再次編輯該文件時,會出現如下提示:[O]pen Read-Only, (E)dit anyway, ®ecover, (D)elete it, (Q)uit, (A)bort: 原因:使用vim編輯文件實際是先cop ...
  • MRS相同功能代碼管理應用筆記 使用 MounRiver(以下簡稱 MRS )進行 RISC-V 單片機開發時,工程目錄下往往存在多個文件夾與文件,我們只需要著重關註截圖中紅框所示的部分,它們自上而下分別是內核、調試、鏈接、外設、啟動與用戶文件夾。除此之外的文件夾與文件,均是由編譯器自動創建,開發過 ...
  • 當我們輸入ls 再按下TAB時, 會自動列出當前路徑下所有的文件; 當我們輸入ls a 再按下TAB時, 會自動列出當前路徑下所有以a開頭的文件; 若只有一個以a開頭的文件, 將會自動補全; 這是怎麼做到的? 本文將帶你一探究竟 ...
  • Metric 是 Datavines 中一個核心概念,一個 Metric 表示一個數據質量檢查規則,比如空值檢查和表行數檢查都是一個規則。Metric 採用插件化設計,用戶可以根據自己的需求來實現一個 Metric。下麵我們來詳細講解一下如何自定義`Metric`。 ### 第一步 我們先瞭解下幾個 ...
  • 一、配置SQL Server (一)SQL Server配置管理器 1、打開SQL Server配置管理器 (1)文件路徑,我的是C:\Windows\SysWOW64\mmc.exe, 也可以從開始菜單找(如下圖所示) ps網路資源:Windows10 可能在菜單欄里找不到SQL server的配 ...
  • # Spark架構體系 StandAlone模式是spark自帶的集群運行模式,不依賴其他的資源調度框架,部署起來簡單。 StandAlone模式又分為client模式和cluster模式,本質區別是Driver運行在哪裡,如果Driver運行在SparkSubmit進程中就是Client模式,如果 ...
  • ![file](https://img2023.cnblogs.com/other/2685289/202306/2685289-20230626191342850-513894679.png) 大家好我是張金明,在蔚來汽車擔任大數據平臺研發工程師。這次和大家分享的是 Apache DolphinS ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...