通過ModelScope開源多模態Embedding模型進行向量生成

-Advertisement-

本文介紹如何通過ModelScope魔搭社區中的多模態表徵開源模型進行多模態向量生成，併入庫至向量檢索服務DashVector中進行向量檢索。 ...

本文介紹如何通過ModelScope魔搭社區中的多模態表徵開源模型進行 多模態向量生成 ，併入庫至向量檢索服務DashVector中進行向量檢索。

ModelScope魔搭社區旨在打造下一代開源的模型即服務共用平臺，為泛AI開發者提供靈活、易用、低成本的一站式模型服務產品，讓模型應用更簡單。

ModelScope魔搭社區的願景是彙集行業領先的預訓練模型，減少開發者的重覆研發成本，提供更加綠色環保、開源開放的AI開發環境和模型服務，助力綠色"數字經濟"事業的建設。 ModelScope魔搭社區將以開源的方式提供多類優質模型，開發者可在平臺上免費體驗與下載使用。

在ModelScope魔搭社區，您可以：

免費使用平臺提供的預訓練模型，支持免費下載運行
一行命令實現模型預測，簡單快速驗證模型效果
用自己的數據對模型進行調優，定製自己的個性化模型
學習系統性的知識，結合實訓，有效提升模型研發能力
分享和貢獻你的想法、評論與模型，讓更多人認識你，在社區中成長

前提條件

DashVector：
- 已創建Cluster
- 已獲得API-KEY
- 已安裝最新版SDK
- ModelScope
- 已安裝最新版SDK：pip install -U modelscope

CLIP模型

簡介

本項目為CLIP模型的中文版本，使用大規模中文數據進行訓練（ ~2億圖文對 ），可用於圖文檢索和圖像、文本的表徵提取，應用於搜索、推薦等應用場景。

關於CLIP模型更多信息請參考：CLIP模型

使用示例

說明

需要進行如下替換代碼才能正常運行：

DashVector api-key替換示例中的
DashVector Cluster Endpoint替換示例中的
使用上表中 模型ID 替換示例中的
使用上表中 向量維度 替換示例中的

Python

from modelscope.utils.constant import Tasks
from modelscope.pipelines import pipeline
from modelscope.preprocessors.image import load_image
from typing import List
from dashvector import Client


pipeline = pipeline(task=Tasks.multi_modal_embedding, model='{model_id}')


def generate_text_embeddings(texts: List[str]):
    inputs = {'text': texts}
    result = pipeline.forward(input=inputs)
    return result['text_embedding'].numpy()


def generate_img_embeddings(img: str):
    input_img = load_image(img)
    inputs = {'img': input_img}
    result = pipeline.forward(input=inputs)
    return result['img_embedding'].numpy()[0]


# 創建DashVector Client
client = Client(
    api_key='{your-dashvector-api-key}',
    endpoint='{your-dashvector-cluster-endpoint}'
)

# 創建DashVector Collection
rsp = client.create('CLIP-embedding', dimension={model_dim})
assert rsp
collection = client.get('CLIP-embedding')
assert collection

# 向量入庫DashVector
collection.insert(
    [
        ('ID1', generate_text_embeddings(['阿裡雲向量檢索服務DashVector是性能、性價比具佳的向量資料庫之一'])[0]),
        ('ID2', generate_img_embeddings('https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/pokemon.jpeg'))
    ]
)

# 向量檢索
docs = collection.query(
    generate_text_embeddings(['The best vector database'])[0]
)
print(docs)

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Redis基礎知識（學習筆記21--Lua 腳本語言2）

本系列文章是 DolphinScheduler 由淺入深的教程，涵蓋搭建、二開迭代、核心原理解讀、運維和管理等一系列內容。適用於想對 DolphinScheduler瞭解或想要加深理解的讀者。推薦閱讀：海豚調度監控：使用圖關係解決核心鏈路告警問題，減輕任務運維負擔，用戶五星好評！海豚調度 ...
入門指南 | Datavines 安裝部署篇

摘要：本文主要介紹基於源碼部署 Datavines 和執行檢查作業，內容主要分為以下幾個部分：平臺介紹快速部署運行數據質量檢查作業 Datavines 的目標是成為更好的數據可觀測性領域的開源項目，為更多的用戶去解決元數據管理和數據質量管理中遇到的問題。在此我們真誠歡迎更多的貢獻者參與到社區建 ...
Redis使用場景

Redis使用場景目錄緩存緩存穿透緩存擊穿緩存雪崩雙寫一致性持久化數據過期策略數據淘汰策略分散式鎖實現原理（setnx、redission）其他哨兵模式、集群腦裂分片集群、數據讀取規則 redis是單線程的卻很快緩存一、緩存穿透定義：查詢一個不存在的數據，Mysql ...
My SQL 列轉行操作

原表結構如下，我們可以發現，“日運輸量”和“車次”是在同一張表中相互獨立的兩個欄位，即獨立的兩列數據，下麵，我將系統中的測試數據以及代碼全部放出來，以解釋列轉行的操作方法原表資料庫查詢代碼： 1 SELECT 2 yzrq AS 運作日期, 3 DATE_FORMAT( yzrq, '%Y-%m' ...
Percona Toolkit 神器全攻略（複製類）

Percona Toolkit 神器全攻略（複製類） Percona Toolkit 神器全攻略系列共八篇，前文回顧：前文回顧 Percona Toolkit 神器全攻略 Percona Toolkit 神器全攻略（實用類） Percona Toolkit 神器全攻略（配置類） Percona T ...
數據資產入表元年，企業如何抓住數據資產增值的機遇？

近年來，政府將數據要素納入了經濟發展的重要指示性文件當中，希望利用數據驅動。《全國數據資源調查報告（2023年）》顯示，2024年以來不少地方紛紛成立“數據集團”，加快盤活數據資產。作為數字經濟時代的首要生產要素，數據將有望成為政府和企業財務報表以及財政收入的重要支持。一、數據資產定義數據資產是 ...
填坑 Plugin 'mysql_native_password' is not loaded

資料庫從 mysql5.7 升級到 mysql8.4，部分場景出現以下錯誤提示：Plugin 'mysql_native_password' is not loaded 原因是：mysql_native_password 插件(模式)在新版本中被棄用了，新模式為 caching_sha2_passw ...
深度解析：基於離線開發的數據倉庫轉型落地案例

在當今這個數據驅動的時代，各行各業都正經歷著前所未有的變革。伴隨技術的飛速發展，數據倉庫作為企業數據管理與分析的核心，如何更好地發揮作用，助力企業保持業務的敏捷性與成本效益，成為大家關心的焦點問題。本文將通過具體案例分析，展現基於離線開發的數據倉庫轉型落地中的關鍵步驟與實施策略。一、業務增長迅速， ...