python使用vosk進行中文語音識別

-Advertisement-

操作系統：Windows10 Python版本：3.9.2 vosk是一個離線開源語音識別工具，它可以識別16種語言，包括中文。這裡記錄下使用vosk進行中文識別的過程，以便後續查閱。 vosk地址：https://alphacephei.com/vosk/ 使用vosk-server進行語音識別 ...

操作系統：Windows10

Python版本：3.9.2

vosk是一個離線開源語音識別工具，它可以識別16種語言，包括中文。

這裡記錄下使用vosk進行中文識別的過程，以便後續查閱。

vosk地址：https://alphacephei.com/vosk/

使用vosk-server進行語音識別

使用docker啟動vosk服務

1、獲取vosk

[root@host32 ~]# docker search alphacep
NAME                             DESCRIPTION                                     STARS               OFFICIAL            AUTOMATED
alphacep/kaldi-ru                Russian websocket server for streaming speec…   11
alphacep/kaldi-en                English websocket server for streaming speec…   10
alphacep/kaldi-vosk-server       Websocket-based server for speech recognitio…   8
alphacep/kaldi-de                German websocket server for streaming speech…   4
alphacep/kaldi-cn                Chinese websocket server for streaming speec…   3
alphacep/kaldi-manylinux         Helper image to build python modules for pypi   3
alphacep/kaldi-en-gpu            Vosk GPU websocket server for fast processin…   2
alphacep/kaldi-en-in             Streaming speech recognition based on Kaldi …   1
alphacep/kaldi-grpc-en           Speech recognition gRPC server based on Kald…   0
alphacep/kaldi-es                                                                0
alphacep/dockcross-linux-armv7                                                   0
alphacep/vosk-unimrcp                                                            0
alphacep/kaldi-fr                French websocket server for streaming speech…   0
alphacep/kaldi-vosk-server-gpu   Vosk GPU websocket server for fast processin…   0
alphacep/kaldi-en-spk                                                            0
uburuntu/kaldi-vosk-server       https://github.com/alphacep/vosk-server         0
gabrielbg99/kaldi                ARM64 (Cortex-A72) version of https://hub.do…   0
gabrielbg99/kaldi-en             ARM64 (Cortex-A72) version of https://hub.do…   0
[root@host32 ~]# docker pull alphacep/kaldi-cn

2、啟動vosk

獲取docker鏡像：

docker pull alphacep/kaldi-cn:latest

啟動服務：

docker run -d -p 2700:2700 alphacep/kaldi-cn:latest

使用vosk-server測試

1、下載vosk-server源代碼

命令如下：

git clone https://github.com/alphacep/vosk-server

2、測試

test2.wav內容：

自然語言理解和生成是一個多方面問題，我們對它可能也只是部分理解。

cd vosk-server/websocket
./test.py test2.wav

識別效果如下：

註意：語音文件test1.wav的格式必須8khz 16bit mono PCM（8000採樣率，16位採樣精度，單聲道，pcm）。

可以在屏幕上看到伺服器返回的識別結果，結果是json格式。

如果提示如下錯誤：

AttributeError: module 'asyncio' has no attribute 'run'

請使用python 3.7以上的版本。

python使用vosk-server進行中文語音識別的演示視頻，可從如下途徑獲取：

關註微信公眾號（聊聊博文，文末可掃碼）後回覆 202205210101 獲取。

使用vosk-api進行語音識別

安裝vosk

命令如下：

pip install vosk

下載示例代碼

獲取示例代碼：

git clone https://github.com/alphacep/vosk-api.git

目錄結構如下：

下載預編譯的模型文件

下載地址：https://alphacephei.com/vosk/models

下載模型文件：

wget -c https://alphacephei.com/vosk/models/vosk-model-small-cn-0.22.zip
wget -c https://alphacephei.com/vosk/models/vosk-model-cn-0.15.zip
wget -c https://alphacephei.com/vosk/models/vosk-model-cn-kaldi-multicn-0.15.zip

如果下載過慢，可從如下鏈接獲取：

https://pan.baidu.com/s/1NlmSejpFmUygcCgL4hvGGA

關註微信公眾號（聊聊博文，文末可掃碼）後回覆 2022052101 獲取提取碼。

語音識別測試

1、修改測試代碼

python示例代碼路徑：vosk-api\python\example

編輯 test_simple.py 文件，註釋掉如下代碼：

rec.SetPartialWords(True)

要不會報如下錯誤：

AttributeError: 'KaldiRecognizer' object has no attribute 'SetPartialWords'

2、配置模型文件

解壓 vosk-model-cn-0.15.zip 文件，並將解壓後的文件夾名稱修改為 model ，目錄結構如下：

3、測試語音識別

test2.wav內容：

自然語言理解和生成是一個多方面問題，我們對它可能也只是部分理解。

識別效果如下：

python使用vosk-server進行中文語音識別的演示視頻，可從如下途徑獲取：

關註微信公眾號（聊聊博文，文末可掃碼）後回覆 202205210102 獲取。

本文涉及源碼及模型，可以從百度網盤獲取：https://pan.baidu.com/s/1NlmSejpFmUygcCgL4hvGGA

關註微信公眾號（聊聊博文，文末可掃碼）後回覆 2022052101 獲取提取碼。

微信公眾號：

E-Mail : [email protected]

轉載請註明出處，謝謝！

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

求解水仙花數

/* 下述代碼近供參考水仙花數是指一個3位數，它的每個位上的數字3次冪之和等於它本身。例如：（1的3次方+5的3次方+3的3次方=153），請列印所有的水仙花數。 */ // 第一種方式 for(var a=0;a<10;a++) { for(var b=0;b<10;b++) { for( v ...
一文讀懂TS in操作符

in操作符作用: 遍歷類型基本用法 type roles = "tester" | "developer" | "manager"; const staffCount: { [k in roles]: number } = { tester: 100, developer: 200, manage ...
一文讀懂TS索引簽名

索引:對象或數組的對應位置的名字數組的索引就是 number 類型的 0,1,2,3... 對象的索引就是 string 類型的屬性名數字索引簽名:通過定義介面用來約束數組 type numberIndex{ [index:number]:string } const testArray:num ...
設計原則之DRY原則

DRY原則 DRY 原則，它的英文描述為：Don’t Repeat Yourself。中文直譯為：不要重覆自己。也可以理解為：不要寫重覆的代碼。我們從實現邏輯重覆、功能語義重覆和代碼執行重覆，這三種代碼重覆來說明DRY原則。實現邏輯重覆例如有兩個函數isValidUserName() 和 is ...
大型網站架構“三高”（高併發、高可用、高性能）

從演化歷史看大型網站架構楊傳偉 (石家莊鐵道大學信息科學與技術學院，河北省，石家莊市，050043) 摘要：本文以大型網站系統的特點、大型網站架構演化發展歷程以及大數據與高併發為切入和論述點，由淺入深、由簡到繁地對大型網站架構設計展開敘述，首先通述其特點，之後介紹大型網站架構的歷史發展歷程，從其 ...
Spring Boot 2.7.0 更新說明

一些必須提前知道的概念 patition kafka日誌文件是以patition在物理存儲上分割的是topic物理上的分組，一個topic可以分為多個partition，每個partition是一個有序的隊列是以文件夾的形式存儲在具體Broker本機上 LEO 表示每個partition的log ...
MVC架構設計淺析

MVC架構設計淺析楊傳偉 (石家莊鐵道大學信息科學與技術學院，河北省，石家莊市，050043) 摘要：本文以圖書管理系統為案例（當前主流框架SpringMVC的原理來分析MVC的設計理念等），深入淺出地分析常用的WEB設計模式MVC。將從MVC的歷史、MVC每一層的作用，MVC能為我們帶來什麼好 ...
簡單聊下單例模式

單例模式單例模式一般用於全局只需要一個唯一的實例的情況。例如說，日誌讀寫的功能，一般來說全局只需一個日誌讀寫實例，然後其他的類實例去獲取這個實例進行日誌讀寫。又例如說，有一個協作的功能，需要各個模塊發送給主控制器，主控制器需要做成單例，這樣子模塊之間操作控制器就是操作實際主控制器的內容。怎麼 ...