ChatGPT 開源了第一款插件,都來學習一下源碼吧!

来源:https://www.cnblogs.com/pythonista/archive/2023/03/29/17270438.html
-Advertisement-
Play Games

QAbstractBUtton: 所有按鈕控制項的基類 提供按鈕的通用功能 繼承自QWidget 屬於抽象類別,不能直接去使用,必須藉助於子類(除非你覺得子類不夠用,想自定義一個按鈕) 大部分功能之前已經使用過,在這裡只作簡單介紹 文本設置: setText(str) :設置按鈕提示文本 text() ...


3 月 23 日,OpenAI 又投出了一枚重磅炸彈:為 ChatGPT 推出插件系統!

此舉意味著 ChatGPT 將迎來“APP Store”時刻,也就是圍繞它的能力,形成一個開發者生態,打造出基於 AI 的“操作系統”!

插件系統將為 ChatGPT 帶來質的飛躍,因為藉助於插件服務,它可以獲取實時的互聯網信息、調用第三方應用(預定酒店航班、點外賣、購物、查詢股票價格等等)。

ChatGPT 是一個無比聰明的大腦,而插件會成為它的眼睛、耳朵、手腳、甚至於翅膀,能力驚人,未來不敢想象!

官方目前提供了兩個插件:

  • 一個網頁瀏覽器。利用新必應瀏覽器的 API,實時搜索互聯網內容,並給出答案和鏈接
  • 一個代碼解釋器。利用 Python 解釋器,可以解決數學問題、做數據分析與可視化、編輯圖片、剪輯視頻等等,還支持下載處理後的文件

另外,OpenAI 還開源了一個知識庫檢索插件 chatgpt-retrieval-plugin ,這個插件通過自然語言從各種數據源(如文件、筆記、郵件和公共文檔)檢索信息。有了開源代碼後,開發者可以部署自己的插件版本。

想象一下,假如我提供了一個“Python 知識庫插件”,以所有官方文檔作為數據源,那以後有任何 Python 使用上的問題,我就只需詢問 ChatGPT,然後它調用插件並解析數據,最後返回給我準確的答案。這將節省大量的時間!

不僅如此,你還可以用書籍作為數據源,打造出“西游記知識庫”、“紅樓夢知識庫”、“百科全書知識庫”、“個人圖書館知識庫”,等等;以專業領域的論文與學術期刊為數據源,創造出一個專家助手,從此寫論文查資料將無比輕鬆;以蘇格拉底、喬布斯、馬斯克等名人的資料為數據源,創造出人格化的個人顧問……

作為第一個開源的 ChatGPT 插件,chatgpt-retrieval-plugin 項目一經發佈,就登上 Github 趨勢榜第一,發佈僅一周就獲得 11K stars。

這個項目完全是用 Python 寫的,不管是出於學習編程的目的,還是為了將來開發別的插件作借鑒,這都值得我們花時間好好研究一下。

接下來,我將分享自己在閱讀項目文檔和源碼時,收穫到的一些信息。

首先,該項目含 Python 代碼約 3 K,規模不算大。項目結構也很清晰,目錄如下:

目錄 描述
datastore 包含使用各種向量資料庫提供程式存儲和查詢文檔嵌入的核心邏輯
examples 包括配置示例、身份驗證方法和麵向程式提供方的示例
models 包含插件使用的數據模型,例如文檔和元數據模型
scripts 存放實用的腳本,用於處理和上傳來自不同數據源的文件
server 存放主要的 FastAPI 服務端實現
services 包含用於任務(如分塊、元數據提取和 PII 檢測)的實用服務
tests 包括各種向量資料庫提供程式的集成測試
.well-known 存儲插件清單文件和 OpenAPI 格式,定義插件配置和 API 規範等信息

除去示例、測試、配置文件等內容外,最主要的三個目錄如下:

datastore 數據存儲

數據源的文本數據會被映射到低維度向量空間,然後存儲到向量資料庫中。官方已提供 Pinecone、Weaviate、Zilliz、Milvus、Qdrant、Redis 這幾種數據存儲方案的示例。另外,有幾個 pull requests 想要加入 PostgreSQL 的支持,大概率將來會合入。

這裡使用了抽象工廠設計模式 ,DataStore 是一個抽象類,每種數據存儲庫是具體的實現類,需要實現三個抽象方法:

(1)_upsert(chunks: Dict[str, List[DocumentChunk]]) -> List[str] 方法,接收一個字典參數,包含有 DocumentChunk 對象列表,將它們插入到資料庫中。返回值為文檔 ID 的列表。

(2)_query(queries: List[QueryWithEmbedding]) -> List[QueryResult] 方法,接收一個列表參數,包含被 embedding 的查詢文本。返回一個包含匹配文檔塊和分數的查詢結果列表。

(3)delete(ids: Optional[List[str]] = None, filter: Optional[DocumentMetadataFilter] = None, delete_all: Optional[bool] = None, ) -> bool 方法,根據 id 和其它過濾條件刪除,或者全部刪除。返回操作是否成功。

值得註意的是,該目錄下的factory.py 模塊使用了 Python 3.10 新引入的 match-case 語法,緊跟著 Python 社區的新潮流呢~

server 服務端介面

這個目錄只有一個main.py 文件,是整個項目的啟動入口。它使用了目前主流的 FastAPI 框架,提供了增刪改查的幾個 API,另外使用 uvicorn 模塊來啟動服務。

  • /upsert-file 介面,用於上傳單個文件,將其轉換為 Document 對象,再進行新增或更新
  • /upsert 介面,上傳一系列的文檔對象,用於新增或更新
  • /query 介面,傳入一系列的文本條件,轉成 QueryWithEmbedding 對象後,再從向量資料庫查詢
  • /delete 介面,根據條件刪除或者全部刪除資料庫中的數據

在這幾個介面中,增改刪功能主要是給開發者/維護者使用的,ChatGPT 只需調用插件的查詢介面。因此,代碼中還創建了一個“/sub”子應用,只包含/query 介面,提供給 ChatGPT 調用。

另外,它使用 FastAPI 的 mount 方法掛載了一個“/.well-known”靜態文件目錄,暴露了關於本插件的基本信息,例如名稱、描述、作者、logo、郵箱、提供給 OpenAPI 的介面文檔等等。

services 任務處理方法

這個目錄下是一些通用的函數,比如下麵這些:

(1)chunks.py 文件包含了將字元串和 Document 對象分割成小塊、以及為每個塊獲取嵌入向量的函數。

(2)file.py 文件提供了從上傳的文件中提取文本內容及元數據的函數。目前支持解析的文件類型包括 PDF、純文本、Markdown、Word、CSV 和 PPTX。

(3)openai.py 文件包含兩個函數:get_embeddings 函數使用 OpenAI 的 text-embedding-ada-002 模型對給定的文本進行嵌入。get_chat_completion 函數使用 OpenAI 的 ChatCompletion API 生成對話。

整個而言,這個插件的幾個介面功能很清晰,代碼邏輯也不算複雜。核心的文本嵌入操作是藉助於 openai 的 Embedding 介面,文本分塊信息的存儲及查詢操作,則是依賴於各家向量資料庫的功能。

YouTube 上有博主手畫了一張示意圖,字體雖潦草,但大家可以意會一下:

這個視頻 值得推薦一看,因為 up 主不僅簡明地介紹了插件的工作原理,還手把手演示如何部署到 Digital Ocean、如何修改配置、如何調試,而且他有 ChatGPT 的插件許可權,可以將自己部署的插件接入 ChatGPT,現場演示了知識庫插件的使用!

目前,關於 ChatGPT 插件的介紹、開發及配置等資料還比較少,畢竟是新推出的。但是,申請 waitlist 的個人和組織已經數不勝數了,一旦開放使用,各式各樣的插件一定會像 Python 社區豐富的開源庫一樣,也將極大擴展 ChatGPT 的生態。

最後,插件 chatgpt-retrieval-plugin 的官方文檔是最為詳細的一手資料,推薦大家研究一番。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 使用 VLD 記憶體泄漏檢測工具輔助開發時整理的學習筆記。本篇介紹 VLD 配置文件中配置項 TraceInternalFrames 的使用方法。 ...
  • 分數 20 本題要求你從任意給定的兩個 1 位數字 a1​ 和 a2​ 開始,用乘法口訣生成一個數列 {an​},規則為從 a1​ 開始順次進行,每次將當前數字與後面一個數字相乘,將結果貼在數列末尾。如果結果不是 1 位數,則其每一位都應成為數列的一項。 輸入格式: 輸入在一行中給出 3 個整數,依 ...
  • 點右上角加星標,江湖要事早知道 前幾天在脈脈上看到一個熱議話題“23年找工作的心酸歷程” 大家都知道近幾年互聯網大環境不好,找工作變得越來越捲了、 就算是BAT這種大廠出來的,也不見得就有多好找工作,可想而知,如果你的背景和能力不是特別強,很有可能練簡歷關都過不了。 特別是工作時間久的老程式員,總包 ...
  • 對象樹管理 個人經驗總結,如有錯誤或遺漏,歡迎各位大佬指正 :) @ 設置父對象的作用 眾所周知,Qt中,有為對象設置父對象的方法——setParent。 而設置父對象的作用主要有,在父對象析構的時候,會自動去析構其子對象。如果是一個視窗對象,如果其父對象設置了樣式表(Style Sheet),子對 ...
  • 終於在2023/3/29日,黑馬程式員旗下的ssm框架視頻看完了,也是總結了1萬多字的筆記,把黑馬的和自己的整合了一下 完結撒花,接下來開始學習SpringBoot和軟考中級設計師。 總的來說,我還是比較喜歡.NET,SSM配置實在是太麻煩了,基本沒怎麼寫代碼,時間都花到配置文件上面去了。 筆記部分 ...
  • JSON Web Token(縮寫 JWT)是目前最流行的跨域認證解決方案。 傳統的session認證 http協議本身是一種無狀態的協議,而這就意味著如果用戶向我們的應用提供了用戶名和密碼來進行用戶認證,那麼下一次請求時,用戶還要再一次進行用戶認證才行,因為根據http協議,我們並不能知道是哪個用 ...
  • 功能實現02 6.功能05-顯示家居信息 6.1需求分析 進入後臺系統,可以在頁面進行所有家居信息的展示 6.2思路分析 完成從後端代碼從mapper(dao層)-->Service層-->Controller層,並對代碼進行測試 完成前端代碼,使用axios發送http請求,返回所有家居信息,將數 ...
  • 使用 VLD 記憶體泄漏檢測工具輔助開發時整理的學習筆記。本篇介紹 VLD 配置文件中配置項 StartDisabled 的使用方法。 ...
一周排行
    -Advertisement-
    Play Games
  • 概述:在C#中,++i和i++都是自增運算符,其中++i先增加值再返回,而i++先返回值再增加。應用場景根據需求選擇,首碼適合先增後用,尾碼適合先用後增。詳細示例提供清晰的代碼演示這兩者的操作時機和實際應用。 在C#中,++i 和 i++ 都是自增運算符,但它們在操作上有細微的差異,主要體現在操作的 ...
  • 上次發佈了:Taurus.MVC 性能壓力測試(ap 壓測 和 linux 下wrk 壓測):.NET Core 版本,今天計劃準備壓測一下 .NET 版本,來測試並記錄一下 Taurus.MVC 框架在 .NET 版本的性能,以便後續持續優化改進。 為了方便對比,本文章的電腦環境和測試思路,儘量和... ...
  • .NET WebAPI作為一種構建RESTful服務的強大工具,為開發者提供了便捷的方式來定義、處理HTTP請求並返迴響應。在設計API介面時,正確地接收和解析客戶端發送的數據至關重要。.NET WebAPI提供了一系列特性,如[FromRoute]、[FromQuery]和[FromBody],用 ...
  • 原因:我之所以想做這個項目,是因為在之前查找關於C#/WPF相關資料時,我發現講解圖像濾鏡的資源非常稀缺。此外,我註意到許多現有的開源庫主要基於CPU進行圖像渲染。這種方式在處理大量圖像時,會導致CPU的渲染負擔過重。因此,我將在下文中介紹如何通過GPU渲染來有效實現圖像的各種濾鏡效果。 生成的效果 ...
  • 引言 上一章我們介紹了在xUnit單元測試中用xUnit.DependencyInject來使用依賴註入,上一章我們的Sample.Repository倉儲層有一個批量註入的介面沒有做單元測試,今天用這個示例來演示一下如何用Bogus創建模擬數據 ,和 EFCore 的種子數據生成 Bogus 的優 ...
  • 一、前言 在自己的項目中,涉及到實時心率曲線的繪製,項目上的曲線繪製,一般很難找到能直接用的第三方庫,而且有些還是定製化的功能,所以還是自己繪製比較方便。很多人一聽到自己畫就害怕,感覺很難,今天就分享一個完整的實時心率數據繪製心率曲線圖的例子;之前的博客也分享給DrawingVisual繪製曲線的方 ...
  • 如果你在自定義的 Main 方法中直接使用 App 類並啟動應用程式,但發現 App.xaml 中定義的資源沒有被正確載入,那麼問題可能在於如何正確配置 App.xaml 與你的 App 類的交互。 確保 App.xaml 文件中的 x:Class 屬性正確指向你的 App 類。這樣,當你創建 Ap ...
  • 一:背景 1. 講故事 上個月有個朋友在微信上找到我,說他們的軟體在客戶那邊隔幾天就要崩潰一次,一直都沒有找到原因,讓我幫忙看下怎麼回事,確實工控類的軟體環境複雜難搞,朋友手上有一個崩潰的dump,剛好丟給我來分析一下。 二:WinDbg分析 1. 程式為什麼會崩潰 windbg 有一個厲害之處在於 ...
  • 前言 .NET生態中有許多依賴註入容器。在大多數情況下,微軟提供的內置容器在易用性和性能方面都非常優秀。外加ASP.NET Core預設使用內置容器,使用很方便。 但是筆者在使用中一直有一個頭疼的問題:服務工廠無法提供請求的服務類型相關的信息。這在一般情況下並沒有影響,但是內置容器支持註冊開放泛型服 ...
  • 一、前言 在項目開發過程中,DataGrid是經常使用到的一個數據展示控制項,而通常表格的最後一列是作為操作列存在,比如會有編輯、刪除等功能按鈕。但WPF的原始DataGrid中,預設只支持固定左側列,這跟大家習慣性操作列放最後不符,今天就來介紹一種簡單的方式實現固定右側列。(這裡的實現方式參考的大佬 ...