C#使用WhisperNet實現語音識別功能

-Advertisement-

使用C#中的Dictionary與ConcurrentDictionary進行多線程操作在C#中，Dictionary是一個常見的字典類型，但它不是線程安全的。為了在多線程環境中確保全全的操作，我們可以使用ConcurrentDictionary，這是一個專門設計用於多線程場景的線程安全字典。 1 ...

1.寫在前面

最近想做一下本地音頻語音識別工具，在網上找了一些本地音頻語音識別方面的資料。

Whisper 是 OpenAI 的一種自動最先進的語音識別系統，它已經接受了 680000 小時從網路收集的多語言和多任務監督數據的訓練。這個龐大而多樣化的數據集提高了對口音、背景噪音和技術語言的魯棒性。此外，它還支持多種語言的轉錄，以及將這些語言翻譯成英語。與 DALLE-2 和 GPT-3 不同，Whisper 是一種免費的開源模型。 Whisper的優勢是開源免費、支持多語種（包括中文），根據不同的場景需求有不同模型可供選擇，最終的效果比市面上很多音頻轉文字的效果都要好。 Whisper提供了五種型號尺寸，其中四種為純英文版本，提供速度和準確性的權衡。以下是可用型號的名稱及其大致的記憶體要求和相對速度。

Whisper 的性能因語言而異。下圖顯示了使用該模型的 Fleurs 數據集按語言的 WER（單詞錯誤率）細分large-v2（數字越小，性能越好）。中文為14.7%

2.下載地址

源碼下載地址：https://github.com/Const-me/Whisper

模型下載地址：https://huggingface.co/sandrohanea/whisper.net/tree/main/classic

3.程式實現

下麵將貼出實現該程式的關鍵代碼。

private async void buttonAsr_Click(object sender, EventArgs e)
{
    string[] list = Library.listGraphicAdapters();
    CommandLineArgs cla = new CommandLineArgs();
    cla.language = eLanguage.Chinese;
    cla.gpu = textGpu.Text;
    cla.model = textModel.Text;
    cla.fileName = textFile.Text;
    cla.prompt = "這是一段播客的內容。";
    cla.output_srt = true;

    using iModel model = await Library.loadModelAsync(cla.model, new CancellationToken(), eGpuModelFlags.Cloneable, cla.gpu);
    int[]? prompt = null;
    if (!string.IsNullOrEmpty(cla.prompt))
        prompt = model.tokenize(cla.prompt);

    //using Context context = model.createContext();
    context = model.createContext();
    cla.apply(ref context.parameters);
    context.parameters.setFlag(eFullParamsFlags.NoContext, true);
    using iMediaFoundation mf = Library.initMediaFoundation();
    Transcribe transcribe = new Transcribe(cla);
    using iAudioReader reader = mf.openAudioFile(cla.fileName, cla.diarize);
    await context.runFullAsync(reader, transcribe, UpdateProgress, prompt);
}

4.程式界面

5.功能

本地音頻語音識別。

程式中包含WhisperDesktop.exe
下載地址：https://pan.baidu.com/s/1c8r7HO2XvGocEuVIwdddpQ?pwd=6666 提取碼：6666

--------------------------------------------------
只有對寫程式充滿熱情，才能寫出好的程式！

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

【解決方案】如何使用 Http API 代替 OpenFeign 進行遠程服務調用

看到標題大家可能會有點疑惑吧：OpenFeign 不是挺好用的嗎？尤其是微服務之間的遠程調用，平時用的也挺習慣的，為啥要替換呢？ ...
Java開發者的Golang進修指南：從0->1帶你實現協程池

當然，我寫的簡易版協程池還有很多可以優化的地方，比如可以實現動態擴容等功能。今天我們要簡單總結一下協程池的優勢，主要是為了降低資源開銷。協程池的好處在於可以重覆利用協程，避免頻繁創建和銷毀協程，從而減少系統開銷，提高系統性能。此外，協程池還可以提高響應速度，因為一旦接收到任務，可以立即執行，不需要等... ...
C語言中的操作符：瞭解與實踐

ZooKeeperServer 實現了單機版zookeeper服務端功能，子類實現了更加豐富的分散式集群功能： ZooKeeperServer |-- QuorumZooKeeperServer |-- LeaderZooKeeperServer |-- LearnerZooKeeperServer ...
SpringBoot根據多階層創建文件，然後壓縮成壓縮包進行下載

臨時接到一個需求說讓根據按照下麵的這個圖片的結構來打包下載指定位置下的文件到指定位置! 實現思路: 1.把已經實現的樹形結構的代碼進行調用，拿到他的數據進行創建對應的文件夾 2.因為結構下方的文件沒有特別直觀的資料庫中的關聯關係，所以還需要對於管理關係進行梳理 3.創建好階級文件，然後調用網上找的工 ...
【OpenVINO】基於 OpenVINO C++ API 部署 RT-DETR 模型

在該文章中，我們基於OpenVINO™ Python API 向大家展示了包含後處理的RT-DETR模型的部署流程，但在實際工業應用中，我們為了與當前軟體平臺集成更多會採用C++平臺，因此在本文中，我們將基於OpenVINO™ C++ API 向大家展示了不包含後處理的RT-DETR模型的部署流程，... ...
C#對象二進位序列化優化：位域技術實現極限壓縮

目錄1. 引言2. 優化過程2.1. 進程對象定義與初步分析2.2. 排除Json序列化2.3. 使用BinaryWriter進行二進位序列化2.4. 數據類型調整2.5. 再次數據類型調整與位域優化3. 優化效果與總結 1. 引言在操作系統中，進程信息對於系統監控和性能分析至關重要。假設我們需要 ...
C# 迴圈與條件語句詳解

C# Switch 語句使用 switch 語句選擇要執行的多個代碼塊中的一個。示例： switch(expression) { case x: // 代碼塊 break; case y: // 代碼塊 break; default: // 代碼塊 break; } 它的工作方式如下：評估 s ...
Asp.net Webapi 的 Post 方法不能把參數加到 URL 中？試試這樣寫

背景：今天接到客戶一個需求，就是在收銀員在用掃碼槍掃顧客會員碼或者微信付款碼的時候判斷用戶有沒有加企微好友和進企微群，然後根據這個狀態進行語音播報，判斷顧客能不能享受優惠價。關鍵難點就是用戶用的收銀系統是別家的，線上小程式用的是我們家的，兩家不互通，所以立即決定採用Hook鉤子技術做一工具掛在其他收 ...