BSS

結合二元遮罩和頻譜刪減技術之語音增強系統

A Speech Enhancement System Using Binary Mask Approach and Spectral Subtraction Method

摘要

BSS 最一開始想處理的問題就是 cocktail party problem :他的概念是在一

個雞尾酒聚會上，假設有一些人邊喝酒邊說話，即使身旁有很多干擾，他們可，

以很容易去聽某個人的談話內容，這是因為人的大腦可以自然的去分訊號，但

這個過程對於數位電路來說卻很複雜。

BSS 的目的就是在一個房間用多個麥克風放不同位置同時錄音，並利用這個訊

號，解析聲音源應用層面比較廣泛包誇: 行動電話, 多使用者的通訊系統，

在吵雜的環境將人聲加強的語音增強技術。，

演算法

這是Binary Mask實驗流程，兩個麥克風兩個聲源分離，首先，匯入麥克風錄製

的雙聲道訊號，利用STFT 轉換到頻域，接著利用特徵擷取取出相位差和level ratio，

等特徵，在將特徵點以kmeans 分類，用分類結果做出binary mask，最後將mask跟混

合訊號的頻譜做相乘。轉換成時域之後，就有兩個單聲道聲音輸出。

將資訊轉為畫面顯示與聲音撥放。

演算法流程圖

演算法改良

軟體平台

採用的是PandaBoard開發平台，搭配Linux作業系統，另外再接上錄音筆，即可

傳輸資訊至主機端，上圖為開發板外觀。以OMAP 4平台基礎，包含整合2顆，

ARM Cortex-A9，接著在Linux作業系統利用錄音筆將語音資料讀取進來。

軟體配置圖

實現成果

成果1：分離人聲(S40-D40)

混合聲音：男生和女生講話

分離聲音：男生講話

分離聲音：女生講話

成果2：分離噪音(S40-D40)

混合聲音：男生講話和噪音

分離聲音：男生講話

分離聲音：噪音

針對分離噪音做頻譜刪減優化

分離聲音：男生講話

分離聲音：噪音