近年來,使用空間處理算法從干擾揚聲器、混響和/或環境噪聲所造成的噪點環境中提取清晰語音的能力一直備受追捧。從僅提取感興趣信號中獲益的常見用例包括自動語音識別、助聽器信號增強、在線語音聊天、視頻會議及其他眾多應用,例如在嘈雜的餐廳中實時增強語音。
業內認為,跨數據方法是降低信號噪點的穩健解決方案。例如,在空間信號增強領域,人們已經廣泛研究了波束形成器的算法(如延遲和求和算法)和超定向算法(如最大方向性和差分麥克風陣列)。
其他更為優化的方法需要源和非期望噪點的統計知識。最小方差無失真響應(MVDR)和線性約束最小方差(LCMV)等方法提供了分離兩種類型信號的最佳濾波器系數,同時不會使所需信號失真。LCMV公式允許對多個傳遞函數(如果可用)進行線性約束。僅依賴于期望或非期望的推斷以及兩者的混合信息的替代公式稱為最小功率無失真響應(MPDR)和線性約束最小功率(LCMP)方法。
盡管上述方法能夠在已知信號參數的情況下提供最佳解決方案,但僅從信號估計參數依然具有挑戰性。業內存在幾種空間濾波器參數估計方法,但它們通常假設語音源信號,并通?紤]是否已經發生語音的時間活動和概率。它們通常分類為語音活動檢測器或流行的單通道語音存在概率(SPP)。
SPP同時有用于多通道陣列研究,以利用空間域確定不同空間位置的語音概率。所述方法基于這樣一個假設:語音要么是感興趣的目標信號,要么兩者兼而有之。這種假設限制了語音方法的能力,特別是當干擾源可能是音樂、交通工具、動物或在時間或頻譜上與語音不相似的其他來源時。
其他技術使用長時間歷史記錄和統計數據來分離數據源,這可能導致實時應用程序中的長延遲。鑒于僅依賴語音信號的局限性,已改名為Meta的Facebook在名為《Adaptive Multi-Channel Signal Enhancement Based on Multi-Source Contribution Estimation》的論文中提出了一種空間信號增強方法。

所述方法獨立于期望和非期望源信號的頻譜和時間統計,僅利用空間域處理技術進行自適應參數估計。當存在非語音的空間噪聲源時,算法對源信號類型的獨立性尤為重要。團隊假設每個源向接收樣本貢獻一部分信號,并且相對貢獻與樣本在估計空間源參數中的有用性相關。在所述假設下,研究人員從初始到達方向(DOA)估計開始,并跟蹤以確定源的位置。所述位置用于播種LCMV過程,然后用于確定每個源對當前接收信號的相對源貢獻估計(SCE)。SCE值用作自適應學習噪聲混響環境中聲源統計參數的權重,而所述統計參數同時用于計算最終一組MVDR濾波器的參數。最終濾波器用于執行空間信號增強,從而增強選定的期望聲源。用于最終MVDR的參數反饋到第一個LCMV中,因此能夠隨著時間的推移自適應地細化。
在實驗,團隊模擬了在不同混響時間內記錄語音。房間尺寸為6 m×7 m×3 m,使用Eyring公式調整墻壁吸收系數,使混響時間在0.15 s到0.9 s之間變化。總共有6個不同的RT60值。所述信號是用343ms −1的聲速來模擬,采樣頻率16 kHz。帶有6個等間距話筒的圓形話筒陣列的中心位置為(2,3.5,1.5)。在30 dB SPL的水平上,將高斯白噪聲傳感器噪聲添加到所有接收信號中。三個語音源N=3隨機放置在麥克風陣列周圍,距離為1米到2米,角度間隔大于20度,方位角和仰角在±10度以內 。然后,團隊從20組隨機位置分析性能,處理接收到的信號。

當有清晰的語音片段時,空間自適應返回與真實活動密切相關的SCE。算法在混合源信號段中保持穩定性能。特定場景為算法確定正確的參數提供了明確的機會,從而使其能夠實現與理想MVDR的緊密匹配。在更困難的場景中,只有一個源處于活動狀態,從而限制了算法學習正確參數的能力。所述算法在陣列增益增加的情況下自適應地提高了性能。陣列增益的增加速度如圖2所示,當L=8時,在不到2秒的時間內與性能匹配。值得注意的是,在圖3中,無論L如何,30s后的值收斂于類似性能。陣列增益都在大約1s內超過“Max Directivity”波束形成器。

圖4分析了陣列增益性能。對20組隨機位置使用并重復與圖2中的方法類似的方法。自適應在12秒后暫停,以確保分析反映了最大性能。所述方法的陣列增益略低于Oracle性能,但明顯高于“Max Directivity”情況。所述方法的峰值性能平均達到17 dB,比“Oracle”方法的18 dB低1 dB。對于寬帶語音范圍,所述方法的平均性能仍比“Oracle”方法低1 dB至2 dB,且始終比“Max Directivity”方法的陣列增益高4 dB至9 dB。另外,作為RT60函數的性能顯示了陣列增益和混響的反向相關性。對于所有混響級別,所述方法的最大性能與“Oracle”MVDR相似,因為它暴露于部分時間分離的源信號中。這一方法比等效的“Max Directivity”波束形成器(900毫秒的RT60)的陣列增益高7 dB以上。
總的來說,團隊在這項研究中提出了一種方法來自動估計統計參數的空間濾波過程。所述方法估計環境中被跟蹤源的空間能量貢獻,并使用所述貢獻乖離環境的統計表示。然后,研究人員從自適應行為、自適應速度和陣列增益收斂性能等方面對所述方法進行了分析。
相關論文:Adaptive Multi-Channel Signal Enhancement Based on Multi-Source Contribution Estimation
結果表明,所述方法能夠正確地適應給定的一般初始化條件和噪點環境。自適應可以匹配理想空間濾波器的性能,并且當使用較小的緩沖區大小時,可以在不到兩秒鐘的時間內產生優于最大方向性波束形成器的陣列增益。由此產生的空間濾波器具有無失真約束,并且所述方法不限于語音源。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。