ISCSLP中文口語語言處理會議由國際著名學術協會ISCA的中文學術小組SIG-CSLP主辦,為全球針對中文語言處理技術所舉辦的大型國際研討會,并由新加坡、中國大陸、臺灣及香港等四個國家和地區輪流舉辦,該會議已經發展成為中文語言處理技術相關領域最重要的國際研討會。

圖1 ISCSLP2016大會現場
2016年10月17日至20日,第十屆中文口語語言處理國際會議ISCSLP2016 在天津召開,會議聚集了來自全球各地學界和產業界的人士,并向全球征集業界前沿學術論文稿件,展示前沿科技成果,結合當前產業發展態勢,共同探討語言處理的未來發展趨勢。

圖2 思必馳首席科學家俞凱現場
10月18日下午,思必馳首席科學家/聯合創始人、上海交通大學俞凱教授,在大會新技術產業論壇上,進行了題為《基礎技術創新推動產業進步》的主題分享。俞凱教授表示,智能語音在經歷著從感知智能到認知智能的飛躍,解決如何使智能語音進行理解、決策及表述的問題非常重要。俞凱教授強調技術型公司原始創新的重要性,著重介紹了思必馳基于深度學習的語音識別技術,如,VDCNN算法在降噪處理上表現出不可取代的優勢;幀同步解碼轉換為音素同步解碼搜索空間減少80%以上等技術成果。依托穩健的研究實力,思必馳用實際行動踐行著作為技術型公司應有的創新、原創精神。
思必馳專注為智能硬件提供自然語言交互方案,為智能車載、智能家居、智能機器人三個垂直領域定制基于交互場景的語音方案。根據不同應用場景,思必馳依托強大的研發實力滿足用戶在不同場景下的個性化需求。雖然目前國內智能語音領域,通用的開源工具應用較多,難度較低,但通用的開源工具在效率和權限上有極大局限性,既無法滿足特定的前沿算法需求,也常常無法滿足用戶基于場景的個性化需求,不同專業領域的算法、數據、架構等都要依托實際應用進行搭建及優化。因此,思必馳專注技術研發,用技術實力說話,通過定制方案滿足用戶個性化需求。
如何確保技術的專業性與前沿性呢?思必馳成立之初即與上海交大成立聯合實驗室“Speech Lab”,由思必馳聯合創始人,上海交通大學教授俞凱全權負責,專注智能語音技術的研發與應用,思必馳擁有獨立知識產權,并積極促進前端科研成果的商業化轉化與應用。正如俞凱教授在演講中所提,近期,思必馳上海交大聯合實驗室的科研工作又取得了極大突破。
1. 抗噪處理:VDCNN算法模型結構
噪聲環境下的語音識別一直以來是一個難題。目前基于深度學習的主流語音識別技術及引擎,已經可以在很多信噪比相對比較好的環境下取得良好的準確率,但是在面對真實環境下的多類別強噪聲情況環境(比如車載噪聲、家居遠場回聲等),性能變會急劇下降,遠遠不能滿足實際應用的需求。
思必馳和上海交大聯合實驗室,對基于噪聲條件下的語音識別問題進行了深入的研究,歷時一年多以來,提出了VDCNN算法模型結構。相比于傳統語音模型僅使用1至2層卷積層,思必馳通過堆疊較小的卷積層和池化層,將語音模型中的卷積層的深度提高到了10層以上。利用小卷積核更加精細的局部刻畫能力和頻率不變性描述,能夠更好地在語音模型的內部實現了聲學自動降噪的能力。
思必馳上海交大聯合實驗室目前所提出的模型和架構,在噪聲環境語音識別的業界基準庫Aurora4上,取得了7.09%的詞錯誤率。相比于世界其他機構目前10%左右的最好結果,有一個大幅度的明顯優勢,在抗噪語音識別上是一個新的里程碑。此外,除了多類別的加性噪聲,此模型也被驗證在遠場識別環境下也具有明顯的優勢。近5年,在Aurora4噪聲數據庫上,公開可查的世界上著名研究機構最好語音識別系統對比如下圖所示:

圖3 Aurura WER{%)
思必馳上海交大聯合實驗室VDCNN算法模型結構,不但在噪聲環境下具有非常好的準確率,還具有訓練收斂速度快,模型參數規模小等優勢,這些特點都為VDCNN的真實使用提供了便利。
2. 新型解碼框架:Phone Synchronous Decoding
大詞匯連續語音識別由于詞匯量龐大且沒有固定語法,會造成搜索空間非常龐大。目前,通過很多傳統做法可以加快語音識別速度,如,離線基于WFST的搜索空間預優化,在線逐幀同步維特比解碼,結合可變幀率分析等方法。但是,離線優化效果有限,逐幀搜索計算量大,而大量剪枝算法會引入搜索誤差。因此目前主流的大詞匯連續語音識別系統只能工作在云端。
近來,連接時序模型(CTC)取代傳統隱馬爾科夫模型(HMM),被應用到語音識別中,其特點顯著,能夠針對識別序列進行整體建模,帶來更好的前后文建模能力,使語音識別的建模單元顯著減少,并使龐大搜索空間相應減小。另一方面,模型本身建模了多幀對一個音素的映射關系,使得模型輸出的聲學信息集中。根據模型輸出特點,適宜采用更長的搜索步長,由逐幀同步解碼,轉變為音素同步解碼,從而減少了搜索計算量。
思必馳結合以上兩點改進,使語音識別系統的速度累積提高20-30倍,內存下降50%以上,從而使得大詞匯連續語音識別可以應用于離線手持設備;而基于該系統提出的置信度算法,得益于集中的聲學信息和相應設計的優化算法,取得近一倍的提升。顯著改善了語音識別系統的用戶體驗。
近年來,思必馳憑借原始技術創新,在智能車載、智能家居、智能機器人等領域的語音市場展開了布局,與阿里、小米、聯想、海爾、美的、慶科、浙江大華等企業建立了戰略合作關系,為廣大用戶帶來流暢的語音交互體驗;A技術創新必定會推動產業化進步,思必馳重視技術及人才價值,打造更人性化的語音交互。
來源:XXX(非中文科技資訊)的作品均轉載自其它媒體,轉載請尊重版權保留出處,一切法律責任自負。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
如發現本站文章存在問題,提供版權疑問、身份證明、版權證明、聯系方式等發郵件至news@citnews.com.cn。
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。