Python入門 —— 語音識別

来源:https://www.cnblogs.com/darksouls/archive/2018/01/10/8260762.html
-Advertisement-
Play Games

Python 語音:與機器進行語音交流,讓機器明白你說什麼,這是人們長期以來夢寐以求的事情。 語音識別是一門交叉學科。近二十年來,語音識別技術取得顯著進步,開始從實驗室走向市場。人們預計,未來10年內,語音識別技術將進入工業、家電、通信、汽車電子、醫療、家庭服務、消費電子產品等各個領域。 語音識別... ...


Python 語音

實現語音操控的原理

語音操控分為語音識別和語音朗讀兩部分

我們使用speech模塊實現語音模塊(python 2.7)

SAPI是微軟Speech API , 是微軟公司推出的語音介面,而細心的人會發現從WINXP開始,系統上就已經有語音識別的功能了,可是用武之地相當之少,他並沒有給出一些人性化的自定義方案,僅有的語音操控命令顯得相當雞脅。  
 
  • Python pywin32,可以使Python調用WIN32COM介面,選擇對應版本下載(區分32位/64位),直接雙擊運行即可

  • 安裝speech模塊:pip install speech

實現個簡易的控制電腦做事情的小程式:

  • 首先,來個測試文件

此處僅為啟動和關閉語音系統

import speech
while True:
    phrase =speech.input()
    speech.say("You said %s"%phrase)
    if phrase =="turn off":
        break

  • 自製個中文庫
phrase = {"closeMainSystem" : "關閉人機交互"
        , "film" : "我要看電影"
        , "listenMusic" : "我好累啊"
        , "blog" : "看博客"
        , "cmd" : "cmd" }
  • 設計語音對應的電腦操作

def callback(phr, phrase):
    if phr == phrase["closeMainSystem"]:
        speech.say("Goodbye. 人機交互即將關閉,謝謝使用")
        speech.stoplistening() 
        sys.exit()
    elif phr == phrase["film"]:
        speech.say("正在為您打開優酷")
        webbrowser.open_new("http://www.youku.com/")
    elif phr == phrase["listenMusic"]:
        speech.say("即將為你啟動豆瓣電臺")
        webbrowser.open_new("http://douban.fm/")
    elif phr == phrase["blog"]:
        speech.say("即將進入Dreamforce.me")
        webbrowser.open_new("http://www.cnblogs.com/darksouls/")
    elif phr == phrase["cmd"]:
        speech.say("即將打開CMD")
        os.popen("C:\Windows\System32\cmd.exe")

    # 可以繼續用 elif 寫對應的自製中文庫中的對應操作
  • 主程式
while True:
    phr = speech.input()
    speech.say("You said %s" % phr)
    callback(phr, phrase)

  • 完整代碼
# _*_ coding:utf-8 _*_

import os
import sys
import speech
import webbrowser

phrase = {"closeMainSystem" : "關閉人機交互"
        , "film" : "我要看電影"
        , "listenMusic" : "我好累啊"
        , "blog" : "看博客"
        , "cmd" : "cmd" }


def callback(phr, phrase):
    if phr == phrase["closeMainSystem"]:
        speech.say("Goodbye. 人機交互即將關閉,謝謝使用")
        speech.stoplistening() 
        sys.exit()
    elif phr == phrase["film"]:
        speech.say("正在為您打開優酷")
        webbrowser.open_new("http://www.youku.com/")
    elif phr == phrase["listenMusic"]:
        speech.say("即將為你啟動豆瓣電臺")
        webbrowser.open_new("http://douban.fm/")
    elif phr == phrase["blog"]:
        speech.say("即將進入Dreamforce.me")
        webbrowser.open_new("http://www.cnblogs.com/darksouls/")
    elif phr == phrase["cmd"]:
        speech.say("即將打開CMD")
        os.popen("C:\Windows\System32\cmd.exe")

    # 可以繼續用 elif 寫對應的自製中文庫中的對應操作

while True:
    phr = speech.input()
    speech.say("You said %s" % phr)
    callback(phr, phrase)

發現網上有個語音識別框架:

# _*_ coding:utf-8 _*_

from win32com.client import constants
import os
import win32com.client
import pythoncom

speaker = win32com.client.Dispatch("SAPI.SPVOICE")


class SpeechRecognition:
    def __init__(self, wordsToAdd):
        self.speaker = win32com.client.Dispatch("SAPI.SpVoice")
        self.listener = win32com.client.Dispatch("SAPI.SpSharedRecognizer")
        self.context = self.listener.CreateRecoContext()
        self.grammar = self.context.CreateGrammar()
        self.grammar.DictationSetState(0)
        self.wordsRule = self.grammar.Rules.Add("wordsRule", constants.SRATopLevel + constants.SRADynamic, 0)
        self.wordsRule.Clear()[self.wordsRule.InitialState.AddWordTransition(None, word) for word in wordsToAdd]
        self.grammar.Rules.Commit()
        self.grammar.CmdSetRuleState("wordsRule", 1)
        self.grammar.Rules.Commit()
        self.eventHandler = ContextEvents(self.context)
        self.say("Started successfully")
    def say(self, phrase):
        self.speaker.Speak(phrase)
class ContextEvents(win32com.client.getevents("SAPI.SpSharedRecoContext")):
    def OnRecognition(self, StreamNumber, StreamPosition, RecognitionType, Result):
        newResult = win32com.client.Dispatch(Result)
        print("你在說 ", newResult.PhraseInfo.GetText())
        speechstr=newResult.PhraseInfo.GetText()
        # 下麵即為語音識別信息對應
        if  speechstr=="張三":
            speaker.Speak("lisi")
        elif  speechstr=="你好":
            speaker.Speak("hello world")
        elif  speechstr=="國慶快樂":
            speaker.Speak("Happy   nationalday")
        elif  speechstr=="新年快樂":
            speaker.Speak("happy  New Year")
        elif  speechstr=="李四":
            speaker.Speak("a  beauty baby")
        elif  speechstr=="王五":
            speaker.Speak("a  little boy")
        elif  speechstr=="趙六":
            speaker.Speak("a  boy  can  coding")
        else:
            pass

if __name__ == '__main__':

    speaker.Speak("語音識別開啟")
    wordsToAdd = ["張三",
                  "你好",
                  "國慶快樂",
                  "新年快樂",
                  "李四",
                  "王五",
                  "趙六",]
    speechReco = SpeechRecognition(wordsToAdd)
    while True:
        pythoncom.PumpWaitingMessages()

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 相關介紹:  RMI全稱是Remote Method Invocation,即遠程方法調用。它是一種電腦之間利用遠程對象互相調用,從而實現雙方通訊的一種通訊機制。使用這種機制,某一臺電腦(虛擬機)上的對象可以調用另外一臺電腦(虛擬機)上的對象來獲取遠程數據。RMI是Enterpris ...
  • 1面向對象基礎 JAVA基礎語法自行掌握. 三大特性: 一 封裝:★★★★★ 概念:是指隱藏對象的屬性和實現細節,僅對外提供公共訪問方式。 好處:將變化隔離;便於使用;提高重用性;安全性。 封裝原則:將不需要對外提供的內容都隱藏起來,把屬性都隱藏,提供公共方法對其訪問。 單例設計模式:★★★★★(必 ...
  • 1.PHP錯誤級別 E_ERROR嚴重錯誤,腳本終止執行 E_WARNING警告,非嚴重錯誤,腳本繼續執行 E_NOTICE提示,不是很重要 代碼實例 結果 可以看到在NOTICE 和 WARNING之後,語句繼續執行,而ERROR之後的語句就沒有執行,如果將第5行的代碼換到第1行那麼後面的兩條語句 ...
  • 順序表 1.順序表定義:線性表的順序表示指的是用一組地址連續的存儲單元依次存儲線性表的數據元素。假設線性表的每個元素需占用L個 存儲單元,並以所占的第一個單元的存儲地址作為數據元素的存儲位置。則線性表中第i+1個數據元素的存儲位置LOC(ai+1)和第i個數據 元素的存儲位置LOC(ai)之間滿足下 ...
  • (一)一個指針引用字元串的小例子 把字元串a複製到字元串b (二)字元指針做函數參數 實參和形參都可以選擇字元數組名和字元指針變數,但存在區別:(1)編譯時為字元數組分配若幹存儲單元,以存放個元素的值,而對字元指針變數,只分配一個存儲單元(2)指針變數的值是可以改變的,而數組名代表一個固定的值(數組 ...
  • #115. 無源匯有上下界可行流 描述 這是一道模板題。 n n n 個點,m m m 條邊,每條邊 e e e 有一個流量下界 lower(e) \text{lower}(e) lower(e) 和流量上界 upper(e) \text{upper}(e) upper(e),求一種可行方案使得在所 ...
  • 重載的定義及特點 在同一個類中,允許存在一個以上的同名函數, 只要他們的參數個數或者參數類型不同(不僅指兩個重載方法的參數類型不同,還指相同參數擁有不同的參數類型順序)就構成重載。重載只和參數列表有關係,跟返回值類型無關,即返回值類型不能作為重載的條件。 ...
  • 前言 在去年的時候,在各種渠道中略微的瞭解了SpringBoot,在開發web項目的時候是如何的方便、快捷。但是當時並沒有認真的去學習下,畢竟感覺自己在Struts和SpringMVC都用得不太熟練。不過在看了很多關於SpringBoot的介紹之後,並沒有想象中的那麼難,於是開始準備學習Spring ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...