Meta 基礎人工智能研究(FAIR)團隊宣布推出「全語種自動語音識別系統」(Omnilingual ASR),可支援超過1,600種語言的語音轉寫,覆蓋範圍遠超現有主流語音識別技術,並已以 Apache 2.0 開源。
目前全球約有7,000種語言,但過去多數AI語音工具僅支援數百種高資源語言。Meta 表示,Omnilingual ASR 將其中500種語言首次納入AI支援範圍,被視為邁向「通用語音轉寫」的重要一步,有望打破語言隔閡、促進跨文化溝通。
測試顯示,該系統在受測語言中有78% 的字符錯誤率(CER)低於10%;若語音數據超過10小時,精度達標比例提升至 95%。即使對於極低資源語言,仍有三成以上達到相同精度。
FAIR 同步開放「全語種 ASR 語料庫」(Omnilingual ASR Corpus),涵蓋350種代表性不足語言,供研究與本地語音模型開發使用。
系統還具備創新的「自帶語言」(Bring Your Own Language)功能,用戶僅需提供少量語音與文字樣本,即可讓模型自動學習新語言,理論上可擴展至5,400 種以上。
Omnilingual ASR 模型家族涵蓋從三億至70億參數 的版本,基於FAIR自研 PyTorch 架構 fairseq2 開發,適用於從低功耗裝置到高精度應用的多場景需求。

Meta推出「全語種自動語音識別系統」(Omnilingual ASR),可支援超過1,600種語言。(網絡圖片)