最近因為項目需要對聲音進行變聲,所以邊學習邊做,發現音頻的處理思路並不難,但是做起來還是有些繁瑣的(比預期的) 趁著腦子還發熱,趕緊把思路總結一下,記錄下來。 主要講三個部分 1,如何變聲2,安卓實現變聲3,ios實現變聲 1. 要想自己寫一個變聲的函數或者庫出來,談何容易,所以採用了大家普遍採用的 ...
最近因為項目需要對聲音進行變聲,所以邊學習邊做,發現音頻的處理思路並不難,但是做起來還是有些繁瑣的(比預期的)
趁著腦子還發熱,趕緊把思路總結一下,記錄下來。
主要講三個部分
1,如何變聲2,安卓實現變聲3,ios實現變聲
1.
要想自己寫一個變聲的函數或者庫出來,談何容易,所以採用了大家普遍採用的庫SoundTouch。
該庫可以實現改變聲音的速度,節拍,音調(這個最重要,可以把聲音的音調調高調低,使之變成男生女生,可以參照湯姆貓)
使用的思路為把整個庫放到不同平臺的底層,使用時只需包含頭文件soundtouch.h即可.
SoundTouch類提供了許多方法,其中最重要的就是setPitch,setRate這幾個調節聲音參數的方法,具體使用時自行設置參數。
但是在使用前需要預先設置一下其中的幾個函數的參數如下:
mSoundTouchInstance->setSetting(SETTING_USE_QUICKSEEK, 0); mSoundTouchInstance->setSetting(SETTING_USE_AA_FILTER, !(0)); mSoundTouchInstance->setSetting(SETTING_AA_FILTER_LENGTH, 32); mSoundTouchInstance->setSetting(SETTING_SEQUENCE_MS, 40); mSoundTouchInstance->setSetting(SETTING_SEEKWINDOW_MS, 16); mSoundTouchInstance->setSetting(SETTING_OVERLAP_MS, 8);
然後設置需要的參數
mSoundTouchInstance->setChannels(2); mSoundTouchInstance->setSampleRate(8000); mSoundTouchInstance->setPitch(2);
這裡解釋一下音頻處理的幾個參數,很重要。
聲道:channals,可以是單聲道和雙聲道,分別對應1,2
採樣率:SampleRate 8000-44100不等,一般是常用的幾個值,安卓裡面好像44100是所有設備都支持的,所以設置成44100比較保險吧
每個聲道的位數:bitsPerChannel 一般設置為16
每個幀的聲道數 ChannelsPerFrame 對於pcm數據來說,這個是1
還有幾個參數,對於安卓和ios可能說法不太一樣,以上幾個是都要用到的,比較重要,必須得掌握
2.Android中實現變聲
因為項目要求錄音要實時播放,所以需要採用讀取音頻數據流(PCM格式)來播放,採用的api是AudioRecorder和AudioTrack。
具體的使用方法相關資料較多,官方文檔也比較詳細。大致思路就是先初始化:
//initilize
trbusize=AudioTrack.getMinBufferSize(RECORDER_SAMPLERATE,AudioFormat.CHANNEL_OUT_STEREO, AudioFormat.ENCODING_PCM_16BIT); mAudioTrack = new AudioTrack(AudioManager.STREAM_MUSIC,RECORDER_SAMPLERATE, AudioFormat.CHANNEL_IN_STEREO, AudioFormat.ENCODING_PCM_16BIT, trbusize, AudioTrack.MODE_STREAM); rebusize = AudioRecord.getMinBufferSize(RECORDER_SAMPLERATE, AudioFormat.CHANNEL_IN_STEREO,AudioFormat.ENCODING_PCM_16BIT); mAudioRecord= new AudioRecord(MediaRecorder.AudioSource.MIC,RECORDER_SAMPLERATE,AudioFormat.CHANNEL_IN_STEREO, AudioFormat.ENCODING_PCM_16BIT, rebusize);
這裡因為不同設備支持的參數可能不同,需要是可以寫一個迴圈把所有可能的參數全試一遍。
之後是錄音和播放,可以分別放到兩個線程裡面。一般來說都是把錄音數據保存到文件中,然後再進行播放,這樣可以應付一般的錄音需求。但不足之處在於,錄音時間久了,文件會很大,如果在網路上實時播放的話這樣肯定不行。解決方法就是將錄音的數據傳到一個緩衝區,然後播放時直接從緩衝區取走數據即可。這個緩衝區可以考慮用迴圈隊列或者在java裡面可以直接用一個LinkedList實現。
然後是變聲部分,安卓裡面要想用c++庫的話,只能通過jni來實現,可以寫幾個函數。
while(isInstancePlaying){ if(l<21){ byte[] mbyte=new byte[64]; mAudioRecord.read(mbyte,0,64); SoundTouch.getSoundTouch().putSamples(mbyte,0,INPUT_LENGTH); SoundTouch.getSoundTouch().setPitchSemiTones(pitchTone); SoundTouch.getSoundTouch().receiveSamples(mbyte,INPUT_LENGTH); byteArray.add(mbyte); l=byteArray.size(); } else{ mAudioTrack.write(byteArray.getFirst(),0,64); byteArray.removeFirst(); l=byteArray.size(); }
代碼中有三個函數putSamples,setPitchSemiTones,receiveSamples.這三個都是native方法,在SoundTouch庫中分別通過SoundTouch類提供的對應函數實現,比較簡單,通過這幾個函數即可實現聲音的變聲。
l變數是LinkedList(代碼中的byteArray)的長度,當小於20時添加到byteArray的末尾,同時AudioTrack不斷讀取數組中的第一個元素來播放然後刪除該元素。
最後播放完要記得釋放mAudioTrack和mAudioRecorder。通過stop和release方法實現。
3.IOS實現變聲
因為本人之前沒接觸過ios所以做起來遇到了不少問題,還好最後解決了。
ios裡面的音頻處理比起安卓來說感覺要麻煩一些,用到的核心api就是AudioQueue,正在使用之前一定要好好理解一下它的原理,跟安卓不同的是ios播放和錄音都是用的這個api。就相當於它一個東西實現了安卓中AudioRecorder和AudioTrack的功能,只不過在播放和錄音過程中內部的流程有所變化。
核心思想:
Audio裡面有自帶的一個隊列,首先用戶創建若幹個(3-6個左右都行)緩衝器用來裝填音頻數據,在自帶隊列中播放或錄音完後使用用戶自定義的回調函數進行處理,使得緩衝器能夠被重新利用,並且可以在回調函數中實現用戶自定義的一些功能,比如變聲,寫入文件等等操作。官方給了說明圖比較詳細,需要著重理解一下。
首先是錄音的流程圖:
然後是播放的流程圖:
如何變聲呢?
ios的變聲不需要安卓的jni,因為oc語言可以和c++混編,所以這點相對來說要簡單許多。流程如下:
首先在你的程式中實例化一個SoundTouch類,然後在初始化時將它的參數設置好(setSetting),之後在上面所述的回調函數裡面就可以將錄音得到的數據流進行處理然後選擇保存到文件或者直接播放。思路就是這樣,但是裡面的函數的參數相對還是比較繁瑣的,前面原理沒理解的話這邊就很難做下去了。
實時播放?
思路同Android,可以寫一個迴圈隊列用來緩存音頻數據,然後邊錄音往裡面傳數據邊播放,跟安卓不同的是這些操作需要放到相應的回調函數裡面來實現,有個簡單的辦法是在錄音的回調函數裡面直接播放pcm數據。因為數據是一塊一塊的進來的,每使用完一次緩衝器才會調用一次回調函數,可以直接在回調函數裡面進行播放。
以上就是兩個平臺上實現錄音和實時播放的簡單介紹,這裡面的東西還是蠻多的,值得深入研究。