前面提及過,音頻指紋演算法的思路。 也梳理開源了兩個比較經典的演算法。 https://github.com/cpuimage/shazam https://github.com/cpuimage/AudioFingerprinter 後來一段時間,稍微看了下這兩個演算法,還有不少可以精簡優化的空間。 例 ...
前面提及過,音頻指紋演算法的思路。
也梳理開源了兩個比較經典的演算法。
https://github.com/cpuimage/shazam
https://github.com/cpuimage/AudioFingerprinter
後來一段時間,稍微看了下這兩個演算法,還有不少可以精簡優化的空間。
例如抗噪,特征有效性等優化思路。
音頻指紋切片後的hash特征信息還是太多了,
不過作為哼唱搜歌的基本應用,是足夠的了。
不過我覺得還是可以再進一步提取歌曲的旋律特征的,在音頻指紋的基礎上更進一步。
旋律是最重要的音樂要素之一,多應用於音樂內容分析、音樂創作、音樂教育、抄襲檢測等方面。
主旋律提取旨在從一段音樂中自動估計對應於主旋律單音音符序列的音高或基頻。
流行音樂一般屬於複雜的多音音樂,因此主旋律提取面臨著許多挑戰。
在這裡要特別說一下,音頻處理領域碰到的問題都是相似的。首當其衝主要是雜訊,其次是音量和語速。
特別是在一些場景下的asr識別,例如實時對話,同聲傳譯之類環境下,語速和音量的干擾影響很多時候多過於雜訊。
而很多提供asr服務的廠商對這類情況支持不佳,而據我所知,訊飛的asr中是有內置前處理演算法的。
好像有點偏題了,回到主題上來。
也就是說不管做音頻還是音樂 上面提到的問題都會造成一定精度影響。
音頻前處理演算法是非常重要的,一直在做這方面的研究工作,前面著重於降噪和增益方向,下一步應該會著重在語速方面的研究。
而剛纔提到的旋律,也可以認為是語速的一個點。
旋律,節奏,節拍,精確準確度從另一個側面就可以評估語速,以及風格內容。
所以提取旋律節奏是一個非常值得研究的課題。
也許大家最熟悉的應用場景應該是 游戲節奏類app或者唱K的旋律評分系統。
關於旋律提取這方面的資料比較有限。
在這方向上面,一開始我也是有點蒙圈。
直到我看到一個思路,我突然間豁然開朗。
那就是將歌曲音頻 轉換為midi電子音樂。
眾所周知,midi電子音樂體積非常非常小,在游戲領域應用非常廣,幾乎是標配。
例如超級瑪麗的背景音樂,經典中的經典。
那麼是不是可以實現一種演算法,將音頻轉為midi,作為此段音頻的指紋呢?
理論上,完全可行,而且剛纔提到的唱K的評分系統就是類似的實現。
參照下圖:
上面是一段音樂,下麵是其對於的midi。
把這個圖放大給大家感受一下。
是不是有似曾相識的感覺。
KTV 的節奏條。
所以毫無疑問,KTV的評分系統極其有可能就是採用了MIDI作為聲紋進行相似度匹配,
最後給出評分。
當然關於旋律提取有很多不同的實現,不過,大多數演算法都有3個共同的目的,
分別是演算法的速度性能(複雜度),最終效果,抗噪抗干擾。
針對這三個方面,各有各的技巧。
如果能兼顧三者,無疑是最佳的。
而關於wav轉midi的資料,真的是極其稀少。
大概有:
1. https://github.com/mrk21/wav2midi
https://mrk21.kibe.la/shared/entries/3931bfea-0f31-4aa1-9e72-b7cd6f010697
2.https://github.com/justinsalamon/audio_to_midi_melodia
http://www.justinsalamon.com/melody-extraction.html
等
仔細學習查閱之後,你會跟我一開始一樣,一臉懵逼。
首先,第三方依賴特別多,也就意味著,這個演算法並不簡單。
就效果對比而言,audio_to_midi_melodia 更佳,當然深度學習大火之後
也有人在嘗試通過深度學習的方式,建立wav 到 midi的映射。以尋求新的突破。
當然還在試驗階段,暫時還沒看到有特別優秀的模型放出。
不過可以拭目以待。
而這個演算法有多複雜,看下演算法的流程圖:
說難也不難,說簡單也不簡單。
大部分環節是為瞭解決語速,音量,噪音所造成的誤差問題,使得演算法更佳穩定,更魯棒。
根據這個思路,自行實現演算法並不困難。
改進演算法思路的首要前提,理解演算法的核心思想,
所以至少你要把整個演算法思路實現一遍,加深理解,不管能否理解到精髓。
然後站在巨人的肩膀上,繼續改進。
這個演算法花了我一段時間去實現,原本預計幾個星期可以搞定,
但是後來因為其他原因擱置了。
趁國慶假期,撿起來,把一些工作繼續推進,復現了該演算法。
這個過程挺漫長的,有不少環節還可以進一步改進優化。
不過這是後面的工作了。
演算法暫沒有開源計劃,放出demo 供大家評測。
這個方向的演算法,
有一個專用名詞叫做mir, 全稱 為 music/audio information retrieval/signal processing 。
有興趣的朋友,可以查閱一下相關資料。
基本上都是dsp(數字信號處理)。
學習dsp必須把傅里葉變換好好理解一下。
為了理解傅里葉變換的演算法思路,我把市面上能找到的實現,都過了一遍。
用純c 進行學習復現,也足足花了我1個多月的業餘時間,
就差噴一口老血出來。
可執行demo下載地址:
https://files.cnblogs.com/files/cpuimage/wav2midi.zip
使用方法:拖放wav文件到可執行文件上即可。
或者採用命令行 wav2midi.exe demo.wav
執行後生成 demo.mid 文件。
目前僅支持wav的1通道和2通道格式,其他的格式暫沒做支持。
在學習音頻演算法的時候,經常會聯繫到圖像方面的演算法,進行類比,舉一反三。
都有共通的地方,就看你怎麼應用了,溫故而知新。
用以前說過的一句話來總結就是,
任何演算法都有缺點,但是一定要用它最優秀的思路。
就好比說,用人只要用其長處,天下皆是可用之才。
若有其他相關問題或者需求也可以郵件聯繫俺探討。
郵箱地址是:
[email protected]