結合二元遮罩和頻譜刪減技術之語音增強系統
A Speech Enhancement System Using Binary Mask Approach and Spectral Subtraction Method
摘要
BSS 最一開始想處理的問題就是 cocktail party problem :他的概念是在一
個雞尾酒聚會上,假設有一些人邊喝酒邊說話,即使身旁有很多干擾,他們可,
以很容易去聽某個人的談話內容,這是因為人的大腦可以自然的去分訊號,但
這個過程對於數位電路來說卻很複雜。
BSS 的目的就是在一個房間用多個麥克風放不同位置同時錄音,並利用這個訊
號,解析聲音源應用層面比較廣泛包誇: 行動電話, 多使用者的通訊系統,
在吵雜的環境將人聲加強的語音增強技術。 ,
演算法
這是Binary Mask實驗流程,兩個麥克風兩個聲源分離,首先,匯入麥克風錄製
的雙聲道訊號,利用STFT 轉換到頻域,接著利用特徵擷取取出相位差和level ratio,
等特徵,在將特徵點以kmeans 分類,用分類結果做出binary mask,最後將mask跟混
合訊號的頻譜做相乘。轉換成時域之後,就有兩個單聲道聲音輸出。
將資訊轉為畫面顯示與聲音撥放。
演算法流程圖
演算法改良
軟體平台
採用的是PandaBoard開發平台,搭配Linux作業系統,另外再接上錄音筆,即可
傳輸資訊至主機端,上圖為開發板外觀。以OMAP 4平台基礎,包含整合2顆,
ARM Cortex-A9,接著在Linux作業系統利用錄音筆將語音資料讀取進來。
軟體配置圖
實現成果
成果1:分離人聲(S40-D40)
混合聲音:男生 和 女生 講話
分離聲音:男生講話
分離聲音:女生講話
成果2:分離噪音(S40-D40)
混合聲音:男生講話 和 噪音
分離聲音:男生講話
分離聲音:噪音
針對分離噪音做頻譜刪減優化
分離聲音:男生講話
分離聲音:噪音