[UWP] 用 AudioGraph 來增強 UWP 的音頻處理能力

-Advertisement-

Audio Graph AudioGraph 是 Windows.Media.Audio 命名空間下提供的音頻處理介面之一。可以通過 AudioGraph 的靜態方法 CreateAsync 來實例化一個 AudioGraph 對象，實例化的時候需要傳入一個參數 AudioGraphSetting ...

Audio Graph

AudioGraph 是 Windows.Media.Audio 命名空間下提供的音頻處理介面之一。

可以通過 AudioGraph 的靜態方法 CreateAsync 來實例化一個 AudioGraph 對象，實例化的時候需要傳入一個參數 AudioGraphSettings 來配置 AudioGraph。 Windows把系統中的音頻分成了大概12種類型：

public enum AudioRenderCategory
{
    Other = 0,
    ForegroundOnlyMedia = 1,
    BackgroundCapableMedia = 2,
    Communications = 3,
    Alerts = 4,
    SoundEffects = 5,
    GameEffects = 6,
    GameMedia = 7,
    GameChat = 8,
    Speech = 9,
    Movie = 10,
    Media = 11
}

在構造 AudioGraph 的時候選擇一種類別，可以應用 Windows 的一些優化措施（具體不知道）

創建 AudioGraph 代碼如下：

private async Task InitAudioGraph()
{
    AudioGraphSettings settings = new AudioGraphSettings(Windows.Media.Render.AudioRenderCategory.Media);
    CreateAudioGraphResult result = await AudioGraph.CreateAsync(settings);
    if (result.Status == AudioGraphCreationStatus.Success)
    {
        audioGraph = result.Graph;
    }
}

Audio Graph 如何工作

在 Audio Graph 中，可以包含各種音頻節點，包括:

音頻輸入節點(Input Node), DeviceInputNode, FileInputNode, MediaSourceInputNode,AudioFrameInputNode
音頻輸出節點(Output Node), AudioSubmixNode
中間節點(Submix Node), DeviceOutputNode, FileOutputNode, MediaSourceOutputNode,AudioFrameOutputNode

這三種類型的節點可以按照

輸入節點--->中間節點--->輸出節點

這種順序來組合,其中中間節點可以有多個，用來完成多級的音頻數據處理。

AudioGraph 中各個節點在處理音頻數據的時候，是分段處理的，把完整的音頻數據切分成一小段一小段來處理。

數字音樂存在採樣率的概念，比如48Khz,表示一秒採樣48000次，因此每一次採樣會有一個採樣得到採樣值Sample。

AudioGraph 在處理這些採樣值的時候，會將其分組，每一個分組為一個 Quantum，預設每一個Quantum 代表10ms, 因此針對48K採樣率的音頻，每一個Quantum會有480個Sample，也就是說每一次每個音頻節點只需要處理480個採樣值，針對這480個採樣值做各種處理，比如保存，比如變換效果等。

音頻輸入節點(Input Node)

音頻輸入節點是為了獲取音頻數據，可以通過麥克風錄音，也可以直接從文件讀取，也可以從一個網路流里獲取，甚至可以直接自己生成一個AudioFrame，自己往裡面填音頻數據

1.DeviceInputNode

設備輸入節點，實際上就是麥克風。

值得註意的是同一臺電腦上可能有多個音頻輸入設備，如果在創建輸入節點時不指定使用的輸入設備，將採用系統預設的。
Windows.Devices.Enumeration.DeviceInformation 下麵的介面可以幫助我們選擇音頻輸入設備

public IAsyncOperation<CreateAudioDeviceInputNodeResult> CreateDeviceInputNodeAsync(MediaCategory category,AudioEncodingProperties encodingProperties, DeviceInformation device);

2.FileInputNode

public IAsyncOperation<CreateAudioFileInputNodeResult> CreateFileInputNodeAsync(IStorageFile file);

支持的音頻格式有 MP3,wav,wma,m4a

在文件輸入節點裡面，可以控制播放音頻的速度，音量和播放進度

3.MediaSourceInputNode

IAsyncOperation<CreateMediaSourceAudioInputNodeResult> CreateMediaSourceAudioInputNodeAsync(MediaSource mediaSource);

MediaSource可以從多個途徑獲得，比如文件，比如網路流等，MediaSource類有許多的靜態方法可以創建MediaSource對象，比如文件，好處是播放穩定，網路流的話會受網路影響，可能中斷

4.AudioFrameInputNode

個人認為這個輸入節點非常實用，用於創建音頻資源和編輯音頻會特別方便，因為它允許我們自己填充需要播放的音頻數據，介面本身不難，難點是如何生成可以播放的音頻數據。

想要讀寫一個AudioFrame中數據，需要使用 COM 介面IMemoryBufferByteAccess

[ComImport]
[Guid("5B0D3235-4DBA-4D44-865E-8F1D0E4FD04D")]
[InterfaceType(ComInterfaceType.InterfaceIsIUnknown)]
unsafe interface IMemoryBufferByteAccess
{
    void GetBuffer(out byte* buffer, out uint capacity);
}

因為 UWP 本質上就是各種COM介面組成，在這種場景下直接使用 COM 可能有效率方面的考慮

音頻輸出節點(Output Node)

與輸入節點對應，存在各自的輸入節點（MediaSourceInputNode除外）

DeviceInputNode, 代表揚聲器
FileInputNode，代表文件，輸出音頻數據到文件
AudioFrameOutputNode，這個應用場景我不是很明白，MSDN上這麼說：

“An example scenario for this is performing signal analysis on the audio output”

中間節點（混音節點 Submix Node）

所有的輸入節點，都有一個介面叫做：

 public void AddOutgoingConnection(IAudioNode destination);

通過這個介面，可以把輸入節點和輸出節點連接起來，最簡單的，

fileInputNode.AddOutgoingConnection(deviceOutputNode);

這麼簡單一句，就實現了音樂播放，但是如果想做一些混音的話，就不是很方便了，所以需要 Submix Node.

fileInputNode.AddOutgoingConnection(submixNode);

deviceInputNode.AddOutgoingConnection(submixNode);

submixNode.AddOutgoingConnection(deviceOutputNode);

這三句代碼，可以實現把音樂文件和錄音直接混合輸出到揚聲器，當然也可以輸出到文件中。

使用場景

Audio Graph 對 UWP 處理音頻的能力是一次不錯的拓展，基於 Audio Graph，有很多好玩的使用場景，比如官方文檔裡面介紹到的空間音效 Spatial Audio.

目前我自己最簡單能想到到就是可以用這個做一個簡單的電臺主播助手APP，如圖：

簡易電臺主播助手

參考

本文基本來自於微軟官方文檔：

Audio Graph

其中 Spatial Audio 部分的應用本文沒有介紹到，這部分需要一定的聲學知識才能玩得轉！

後續會繼續把自己對 UWP Audio 的學習記錄在博客園

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

EL表達式和JSTL的使用

一：EL表達式 1.概述：在jsp開發中，為了獲取Servlet域對象中存儲的數據，經常要寫很多java代碼，這樣的做法會使JSP頁面混亂，難以維護，為此，在JSP2.0規範中提供了EL表達式。它是Expression Language的縮寫。 2.語法：${表達式} 2.1內置對象： 2.1.1獲 ...
MyBatis -- generator 逆向工程

一、引言官網文檔：http://www.mybatis.org/generator/index.html 通過使用官方提供的mapper自動生成工具，mybatis-generator-core-1.3.2來自動生成po類和mapper映射文件。作用:mybatis官方提供逆向工程,可以使用它通 ...
對列表與元組的認識

1. 什麼是列表定義: 能裝對象的對象在python中使用 [] 來描述列表, 內部元素用逗號隔開. 對數據類型沒有要求列表存在索引和切片. 和字元串是一樣的. 2. 相關的增刪改查操作添加: 1. append() 追加 2. insert(位置, 元素) 插入指定元素到指定位置刪除: ...
BZOJ4589: Hard Nim(FWT 快速冪)

題意 "題目鏈接" Sol 神仙題Orzzzz 題目可以轉化為從$\leqslant M$的質數中選出$N$個$xor$和為$0$的方案數這樣就好做多了設$f(x) = [x \text{是質數}]$ $n$次異或FWT即可快速冪優化一下，中間不用IFWT，最後轉一次就行(~~然而並不知道為什 ...
第三十一天- 進程串列(鎖) 隊列生成者消費者模型

1.進程同步/串列(鎖) 進程之間數據不共用,但共用同一套文件系統,所以訪問同一個文件,或同一個列印終端,沒有問題，但共用帶來的是競爭容易錯亂，如搶票時。這就需讓進程一個個的進去保證數據安全，也就是加鎖處理，Lock 併發，效率高，但是競爭同一個文件時，導致數據混亂加鎖，由併發改成了串列，犧牲了運 ...
Core官方DI解析(5)-ServiceProviderEngine

最後來看看前面一直說的 Engine(工作引擎) ，工作引擎介面是在`ServiceProvider IServiceProviderEngine`介面和其實現類的整體結構 IServiceProviderEngine類型繼承關係繼承了介面,也就是說工作引擎也具有 GetService() 方 ...
.Net Core 簡單定時任務框架封裝

這篇文章還是回到實際的基礎封裝過程實現層面，用一個小東西來演示如何在常見業務代碼中梳理職責 ...
Docker & ASP.NET Core (5)：Docker Compose

第一篇：把代碼連接到容器第二篇：定製Docker鏡像第三篇：發佈鏡像第四篇：容器間的連接 Docker Compose簡介 Compose是一個用來定義和運行多容器Docker應用的工具。使用Compose的時候，你可以使用一個YAML文件來配置你應用的服務。然後根據配置，使用一個命令即可創建 ...