最近YOLO家族又添新成員:YOLOv10,YOLOv10 提出了一種一致的雙任務方法,用於無nms訓練的YOLOs,它同時帶來了具有競爭力的性能和較低的推理延遲。此外,還介紹了整體效率-精度驅動的模型設計策略,從效率和精度兩個角度對YOLOs的各個組成部分進行了全面優化,大大降低了計算開銷,增強了... ...
最近YOLO家族又添新成員:YOLOv10,YOLOv10 提出了一種一致的雙任務方法,用於無nms訓練的YOLOs,它同時帶來了具有競爭力的性能和較低的推理延遲。此外,還介紹了整體效率-精度驅動的模型設計策略,從效率和精度兩個角度對YOLOs的各個組成部分進行了全面優化,大大降低了計算開銷,增強了性能。在本文中,我們將結合OpenVINO™ C# API 使用最新發佈的OpenVINO™ 2024.1部署YOLOv10 目標檢測模型
OpenVINO™ C# API項目鏈接:
https://github.com/guojin-yan/OpenVINO-CSharp-API.git
使用 OpenVINO™ C# API 部署 YOLOv10 全部源碼:
https://github.com/guojin-yan/OpenVINO-CSharp-API-Samples/blob/master/model_samples/yolov10/
1. 前言
1.1 OpenVINO™ C# API
英特爾發行版 OpenVINO™ 工具套件基於 oneAPI 而開發,可以加快高性能電腦視覺和深度學習視覺應用開發速度工具套件,適用於從邊緣到雲的各種英特爾平臺上,幫助用戶更快地將更準確的真實世界結果部署到生產系統中。通過簡化的開發工作流程,OpenVINO™ 可賦能開發者在現實世界中部署高性能應用程式和演算法。
2024年4月25日,英特爾發佈了開源 OpenVINO™ 2024.1 工具包,用於在各種硬體上優化和部署人工智慧推理。更新了更多的 Gen AI 覆蓋範圍和框架集成,以最大限度地減少代碼更改。同時提供了更廣泛的 LLM 模型支持和更多的模型壓縮技術。通過壓縮嵌入的額外優化減少了 LLM 編譯時間,改進了採用英特爾®高級矩陣擴展 (Intel® AMX) 的第 4 代和第 5 代英特爾®至強®處理器上 LLM 的第 1 令牌性能。通過對英特爾®銳炫™ GPU 的 oneDNN、INT4 和 INT8 支持,實現更好的 LLM 壓縮和改進的性能。最後實現了更高的可移植性和性能,可在邊緣、雲端或本地運行 AI。
OpenVINO™ C# API 是一個 OpenVINO™ 的 .Net wrapper,應用最新的 OpenVINO™ 庫開發,通過 OpenVINO™ C API 實現 .Net 對 OpenVINO™ Runtime 調用,使用習慣與 OpenVINO™ C++ API 一致。OpenVINO™ C# API 由於是基於 OpenVINO™ 開發,所支持的平臺與 OpenVINO™ 完全一致,具體信息可以參考 OpenVINO™。通過使用 OpenVINO™ C# API,可以在 .NET、.NET Framework等框架下使用 C# 語言實現深度學習模型在指定平臺推理加速。
下表為當前發佈的 OpenVINO™ C# API NuGet Package,支持多個目標平臺,可以通過NuGet一鍵安裝所有依賴。
Core Managed Libraries
Native Runtime Libraries
1.2 YOLOv10
在過去的幾年裡,由於在計算成本和檢測性能之間取得了有效的平衡,YOLOs已經成為實時目標檢測領域的主導範式。然而,對非最大抑制(NMS)的後處理依賴阻礙了yolo的端到端部署,並對推理延遲產生不利影響。為瞭解決這些問題,首先提出了一種一致的雙任務方法,用於無nms訓練的YOLOs,它同時帶來了具有競爭力的性能和較低的推理延遲。此外,我們還介紹了整體效率-精度驅動的模型設計策略。我們從效率和精度兩個角度對YOLOs的各個組成部分進行了全面優化,大大降低了計算開銷,增強了性能。我們的努力成果是用於實時端到端目標檢測的新一代YOLO系列,稱為YOLOv10。大量的實驗表明,YOLOv10在各種模型尺度上都達到了最先進的性能和效率。例如,我們的YOLOv10-S在COCO上類似的AP下比RT-DETR-R18快1.8倍,同時參數數量和FLOPs減少2.8倍。與YOLOv9-C相比,在相同性能下,YOLOv10-B的延遲減少了46%,參數減少了25%。
下圖為YOLOv10官方提供的模型訓練精度以及不同模型數據量,可以看出YOLOv10與之前其他系列相比,數據量在減少的同時,精度依舊有所提升。
2. 模型獲取
2.1 源碼下載
YOLOv10 模型需要源碼進行下載,首先克隆GitHub上的源碼,輸入以下指令:
git clone https://github.com/THU-MIG/yolov10.git
cd yolov10
2.2 配置環境
接下來安裝模型下載以及轉換環境,此處使用Anaconda進行程式集管理,輸入以下指令創建一個yolov10環境:
conda create -n yolov10 python=3.9
conda activate yolov10
pip install -r requirements.txt
pip install -e .
然後安裝OpenVINO™環境,輸入以下指令:
pip install openvino==2024.1.0
2.3 下載模型
首先導出目標識別模型,此處以官方預訓練模型為例,首先下載預訓練模型文件,然後調用yolo
導出ONBNX格式的模型文件,最後使用 OpenVINO™ 的模型轉換命令將模型轉為IR格式,依次輸入以下指令即可:
wget https://github.com/jameslahm/yolov10/releases/download/v1.0/yolov10s.pt
yolo export model=yolov10s.pt format=onnx opset=13 simplify
ovc yolov10s.onnx
模型的結構如下圖所示:
3. Yolov10 項目配置
3.1 項目創建與環境配置
在Windows平臺開發者可以使用Visual Studio平臺開發程式,但無法跨平臺實現,為了實現跨平臺,此處採用dotnet指令進行項目的創建和配置。
首先使用dotnet創建一個測試項目,在終端中輸入一下指令:
dotnet new console --framework net6.0 --use-program-main -o yolov10
此處以Windows平臺為例安裝項目依賴,首先是安裝OpenVINO™ C# API項目依賴,在命令行中輸入以下指令即可:
dotnet add package OpenVINO.CSharp.API
dotnet add package OpenVINO.runtime.win
dotnet add package OpenVINO.CSharp.API.Extensions
dotnet add package OpenVINO.CSharp.API.Extensions.OpenCvSharp
關於在不同平臺上搭建 OpenVINO™ C# API 開發環境請參考以下文章: 《在Windows上搭建OpenVINO™C#開發環境》 、《在Linux上搭建OpenVINO™C#開發環境》、《在MacOS上搭建OpenVINO™C#開發環境》
接下來安裝使用到的圖像處理庫 OpenCvSharp,在命令行中輸入以下指令即可:
dotnet add package OpenCvSharp4
dotnet add package OpenCvSharp4.Extensions
dotnet add package OpenCvSharp4.runtime.win
關於在其他平臺上搭建 OpenCvSharp 開發環境請參考以下文章:《【OpenCV】在Linux上使用OpenCvSharp》 、《【OpenCV】在MacOS上使用OpenCvSharp》
添加完成項目依賴後,項目的配置文件如下所示:
<Project Sdk="Microsoft.NET.Sdk">
<PropertyGroup>
<OutputType>Exe</OutputType>
<TargetFramework>net6.0</TargetFramework>
<ImplicitUsings>enable</ImplicitUsings>
<Nullable>enable</Nullable>
</PropertyGroup>
<ItemGroup>
<PackageReference Include="OpenCvSharp4" Version="4.9.0.20240103" />
<PackageReference Include="OpenCvSharp4.Extensions" Version="4.9.0.20240103" />
<PackageReference Include="OpenCvSharp4.runtime.win" Version="4.9.0.20240103" />
<PackageReference Include="OpenVINO.CSharp.API" Version="2024.0.0.1" />
<PackageReference Include="OpenVINO.CSharp.API.Extensions.OpenCvSharp" Version="1.0.4" />
<PackageReference Include="OpenVINO.runtime.win" Version="2024.0.0.1" />
</ItemGroup>
</Project>
3.2 定義模型預測方法
使用 OpenVINO™ C# API 部署模型主要包括以下幾個步驟:
- 初始化 OpenVINO Runtime Core
- 讀取本地模型(將圖片數據預處理方式編譯到模型)
- 將模型編譯到指定設備
- 創建推理通道
- 處理圖像輸入數據
- 設置推理輸入數據
- 模型推理
- 獲取推理結果
- 處理結果數據
3.2.1 定義目標檢測模型方法
按照 OpenVINO™ C# API 部署深度學習模型的步驟,編寫YOLOv10模型部署流程,在之前的項目里,我們已經部署了YOLOv5~9等一系列模型,其部署流程是基本一致的,YOLOv10模型部署代碼如下所示:
static void yolov10_det(string model_path, string image_path, string device)
{
// -------- Step 1. Initialize OpenVINO Runtime Core --------
Core core = new Core();
// -------- Step 2. Read inference model --------
Model model = core.read_model(model_path);
OvExtensions.printf_model_info(model);
// -------- Step 3. Loading a model to the device --------
CompiledModel compiled_model = core.compile_model(model, device);
// -------- Step 4. Create an infer request --------
InferRequest infer_request = compiled_model.create_infer_request();
// -------- Step 5. Process input images --------
Mat image = new Mat(image_path); // Read image by opencvsharp
int max_image_length = image.Cols > image.Rows ? image.Cols : image.Rows;
Mat max_image = Mat.Zeros(new OpenCvSharp.Size(max_image_length, max_image_length), MatType.CV_8UC3);
Rect roi = new Rect(0, 0, image.Cols, image.Rows);
image.CopyTo(new Mat(max_image, roi));
float factor = (float)(max_image_length / 640.0);
// -------- Step 6. Set up input data --------
Tensor input_tensor = infer_request.get_input_tensor();
Shape input_shape = input_tensor.get_shape();
Mat input_mat = CvDnn.BlobFromImage(max_image, 1.0 / 255.0, new OpenCvSharp.Size(input_shape[2], input_shape[3]), 0, true, false);
float[] input_data = new float[input_shape[1] * input_shape[2] * input_shape[3]];
Marshal.Copy(input_mat.Ptr(0), input_data, 0, input_data.Length);
input_tensor.set_data<float>(input_data);
// -------- Step 7. Do inference synchronously --------
infer_request.infer();
// -------- Step 8. Get infer result data --------
Tensor output_tensor = infer_request.get_output_tensor();
int output_length = (int)output_tensor.get_size();
float[] output_data = output_tensor.get_data<float>(output_length);
// -------- Step 9. Process reault --------
List<Rect> position_boxes = new List<Rect>();
List<int> class_ids = new List<int>();
List<float> confidences = new List<float>();
// Preprocessing output results
for (int i = 0; i < output_data.Length / 6; i++)
{
int s = 6 * i;
if ((float)output_data[s + 4] > 0.5)
{
float cx = output_data[s + 0];
float cy = output_data[s + 1];
float dx = output_data[s + 2];
float dy = output_data[s + 3];
int x = (int)((cx) * factor);
int y = (int)((cy) * factor);
int width = (int)((dx - cx) * factor);
int height = (int)((dy - cy) * factor);
Rect box = new Rect();
box.X = x;
box.Y = y;
box.Width = width;
box.Height = height;
position_boxes.Add(box);
class_ids.Add((int)output_data[s + 5]);
confidences.Add((float)output_data[s + 4]);
}
}
for (int i = 0; i < class_ids.Count; i++)
{
int index = i;
Cv2.Rectangle(image, position_boxes[index], new Scalar(0, 0, 255), 2, LineTypes.Link8);
Cv2.Rectangle(image, new OpenCvSharp.Point(position_boxes[index].TopLeft.X, position_boxes[index].TopLeft.Y + 30),
new OpenCvSharp.Point(position_boxes[index].BottomRight.X, position_boxes[index].TopLeft.Y), new Scalar(0, 255, 255), -1);
Cv2.PutText(image, class_ids[index] + "-" + confidences[index].ToString("0.00"),
new OpenCvSharp.Point(position_boxes[index].X, position_boxes[index].Y + 25),
HersheyFonts.HersheySimplex, 0.8, new Scalar(0, 0, 0), 2);
}
string output_path = Path.Combine(Path.GetDirectoryName(Path.GetFullPath(image_path)),
Path.GetFileNameWithoutExtension(image_path) + "_result.jpg");
Cv2.ImWrite(output_path, image);
Slog.INFO("The result save to " + output_path);
Cv2.ImShow("Result", image);
Cv2.WaitKey(0);
}
3.2.2 使用OpenVINO™ 預處理介面編譯模型
OpenVINO™提供了推理數據預處理介面,用戶可以更具模型的輸入數據預處理方式進行設置。在讀取本地模型後,調用數據預處理介面,按照模型要求的數據預處理方式進行輸入配置,然後再將配置好的預處理介面與模型編譯到一起,這樣便實現了將模型預處理與模型結合在一起,實現OpenVINO對於處理過程的加速。主要是現在代碼如下所示:
static void yolov10_det_process(string model_path, string image_path, string device)
{
// -------- Step 1. Initialize OpenVINO Runtime Core --------
Core core = new Core();
// -------- Step 2. Read inference model --------
Model model = core.read_model(model_path);
OvExtensions.printf_model_info(model);
PrePostProcessor processor = new PrePostProcessor(model);
Tensor input_tensor_pro = new Tensor(new OvType(ElementType.U8), new Shape(1, 640, 640, 3));
InputInfo input_info = processor.input(0);
InputTensorInfo input_tensor_info = input_info.tensor();
input_tensor_info.set_from(input_tensor_pro).set_layout(new Layout("NHWC")).set_color_format(ColorFormat.BGR);
PreProcessSteps process_steps = input_info.preprocess();
process_steps.convert_color(ColorFormat.RGB).resize(ResizeAlgorithm.RESIZE_LINEAR)
.convert_element_type(new OvType(ElementType.F32)).scale(255.0f).convert_layout(new Layout("NCHW"));
Model new_model = processor.build();
// -------- Step 3. Loading a model to the device --------
CompiledModel compiled_model = core.compile_model(new_model, device);
// -------- Step 4. Create an infer request --------
InferRequest infer_request = compiled_model.create_infer_request();
// -------- Step 5. Process input images --------
Mat image = new Mat(image_path); // Read image by opencvsharp
int max_image_length = image.Cols > image.Rows ? image.Cols : image.Rows;
Mat max_image = Mat.Zeros(new OpenCvSharp.Size(max_image_length, max_image_length), MatType.CV_8UC3);
Rect roi = new Rect(0, 0, image.Cols, image.Rows);
image.CopyTo(new Mat(max_image, roi));
Cv2.Resize(max_image, max_image, new OpenCvSharp.Size(640, 640));
float factor = (float)(max_image_length / 640.0);
// -------- Step 6. Set up input data --------
Tensor input_tensor = infer_request.get_input_tensor();
Shape input_shape = input_tensor.get_shape();
byte[] input_data = new byte[input_shape[1] * input_shape[2] * input_shape[3]];
//max_image.GetArray<int>(out input_data);
Marshal.Copy(max_image.Ptr(0), input_data, 0, input_data.Length);
IntPtr destination = input_tensor.data();
Marshal.Copy(input_data, 0, destination, input_data.Length);
// -------- Step 7. Do inference synchronously --------
... ...(後續與上文代碼一致)
}
3.2 模型預測方法調用
定義完模型推理介面後,便可以在主函數里進行調用。此處為了讓大家更好的復現本文代碼,提供了線上模型,用戶只需要運行以下代碼,便可以直接下載轉換好的模型進行模型推理,無需再自行轉換,主函數代碼如下所示:
static void Main(string[] args)
{
string model_path = "";
string image_path = "";
string device = "AUTO";
if (args.Length == 0)
{
if (!Directory.Exists("./model"))
{
Directory.CreateDirectory("./model");
}
if (!File.Exists("./model/yolov10s.bin") && !File.Exists("./model/yolov10s.bin"))
{
if (!File.Exists("./model/yolov10s.tar"))
{
_ = Download.download_file_async("https://github.com/guojin-yan/OpenVINO-CSharp-API-Samples/releases/download/Model/yolov10s.tar",
"./model/yolov10s.tar").Result;
}
Download.unzip("./model/yolov10s.tar", "./model/");
}
if (!File.Exists("./model/test_image.jpg"))
{
_ = Download.download_file_async("https://github.com/guojin-yan/OpenVINO-CSharp-API-Samples/releases/download/Image/test_det_02.jpg",
"./model/test_image.jpg").Result;
}
model_path = "./model/yolov10s.xml";
image_path = "./model/test_image.jpg";
}
else if (args.Length >= 2)
{
model_path = args[0];
image_path = args[1];
device = args[2];
}
else
{
Console.WriteLine("Please enter the correct command parameters, for example:");
Console.WriteLine("> 1. dotnet run");
Console.WriteLine("> 2. dotnet run <model path> <image path> <device name>");
}
// -------- Get OpenVINO runtime version --------
OpenVinoSharp.Version version = Ov.get_openvino_version();
Slog.INFO("---- OpenVINO INFO----");
Slog.INFO("Description : " + version.description);
Slog.INFO("Build number: " + version.buildNumber);
Slog.INFO("Predict model files: " + model_path);
Slog.INFO("Predict image files: " + image_path);
Slog.INFO("Inference device: " + device);
Slog.INFO("Start yolov8 model inference.");
//yolov10_det(model_path, image_path, device);
yolov10_det_process(model_path, image_path, device);
}
代碼提示:
由於篇幅限制,上文中只展示了部分代碼,想要獲取全部源碼,請訪問項目GitHub自行下載:
使用OpenVINO™ C# API部署YOLOv10目標檢測模型:
https://github.com/guojin-yan/OpenVINO-CSharp-API-Samples/blob/master/model_samples/yolov10/yolov10_det_opencvsharp/Program.cs
此外為了滿足習慣使用EmguCV處理圖像數據的開發者,此處我們也提供了EmguCV版本代碼:、
使用OpenVINO™ C# API部署YOLOv10目標檢測模型:
https://github.com/guojin-yan/OpenVINO-CSharp-API-Samples/blob/master/model_samples/yolov10/yolov10_det_emgucv/Program.cs
4. 項目運行與演示
4.1 項目編譯和運行
接下來輸入項目編譯指令進行項目編譯,輸入以下指令即可:
dotnet build
接下來運行編譯後的程式文件,在CMD中輸入以下指令,運行編譯後的項目文件:
dotnet run --no-build
運行後項目輸出為:
4.2 YOLOv10 目標檢測模型運行結果
下圖為YOLOv10 目標檢測模型運行輸出信息,此處我們使用線上轉換好的模型進行推理。,首先會下載指定模型以及推理數據到本地,這樣避免了開發者在自己配置環境和下載模型;接下來是輸出列印 OpenVINO™ 版本信息,此處我們使用NuGet安裝的依賴項,已經是OpenVINO™ 2024.0最新版本;接下來就是列印相關的模型信息,並輸出每個過程所消耗時間。
下圖為使用YOLOv10 目標檢測模型推理結果:
5. 總結
在該項目中,我們結合之前開發的 OpenVINO™ C# API 項目部署YOLOv10模型,成功實現了對象目標檢測與實例分割,並且根據不同開發者的使用習慣,同時提供了OpenCvSharp以及Emgu.CV兩種版本,供各位開發者使用。最後如果各位開發者在使用中有任何問題,歡迎大家與我聯繫。