結合二元遮罩和頻譜刪減技術之語音增強系統

A Speech Enhancement System Using Binary Mask Approach and Spectral Subtraction Method

 

摘要

BSS 最一開始想處理的問題就是 cocktail party problem :他的概念是在一

個雞尾酒聚會上,假設有一些人邊喝酒邊說話,即使身旁有很多干擾,他們可

以很容易去聽某個人的談話內容,這是因為人的大腦可以自然的去分訊號,但

這個過程對於數位電路來說卻很複雜。

BSS 的目的就是在一個房間用多個麥克風放不同位置同時錄音,並利用這個訊

號,解析聲音源應用層面比較廣泛包誇: 行動電話, 多使用者的通訊系統,

在吵雜的環境將人聲加強的語音增強技術。 ,

1

演算法

這是Binary Mask實驗流程,兩個麥克風兩個聲源分離,首先,匯入麥克風錄製

的雙聲道訊號,利用STFT 轉換到頻域,接著利用特徵擷取取出相位差和level ratio

等特徵,在將特徵點以kmeans 分類,用分類結果做出binary mask,最後將mask跟混

合訊號的頻譜做相乘。轉換成時域之後,就有兩個單聲道聲音輸出。

將資訊轉為畫面顯示與聲音撥放。

 

2

演算法流程圖

演算法改良

6

軟體平台

採用的是PandaBoard開發平台,搭配Linux作業系統,另外再接上錄音筆,即可

傳輸資訊至主機端,上圖為開發板外觀。以OMAP 4平台基礎,包含整合2顆

ARM Cortex-A9,接著在Linux作業系統利用錄音筆將語音資料讀取進來。

 

3

 

軟體配置圖

4

 

實現成果

5

7

 

成果1:分離人聲(S40-D40)

混合聲音:男生 和 女生 講話

分離聲音:男生講話

分離聲音:女生講話

 

成果2:分離噪音(S40-D40)

混合聲音:男生講話 和 噪音

分離聲音:男生講話

分離聲音:噪音

針對分離噪音做頻譜刪減優化

分離聲音:男生講話

分離聲音:噪音