微軟近日宣布推出其語音技術領域的最新創新——「即時翻譯員API」(Live Interpreter API),作為Azure語音翻譯服務(Azure Speech Translation)的一部分,該功能已正式進入公開預覽階段。此舉不僅展現微軟在人工智慧語音領域的持續投入與領先地位,更意味著全球跨語言、跨文化交流即將進入一個全新時代。
該「即時翻譯員API」的核心目標,在於讓用戶享有無縫的跨語言即時翻譯體驗。過去,語音翻譯技術經常受限於語言切換延遲、語調失真及語意不連貫等問題,而微軟透過整合 Azure 雲端算力與深度語音模型,成功縮短延遲,並改善語調保留,實現接近人類口譯員的表現。這不僅大幅提升多語對話的流暢度與即時性,更為國際會議、教育現場與社交應用場景帶來前所未有的溝通體驗。
自動語言識別 微軟強調,「即時翻譯員API」的一大突破在於內建的自動與連續語言識別功能(Language Identification, LID)。這項技術能即時判斷說話者所使用的語言,無需使用者提前選擇語言類別,大幅簡化操作。
目前該API已支援 76 種語言及 143 個地區方言,涵蓋範圍極廣。從英語、阿拉伯語、普通話、粵語,到各地區語音變體,都能被自動識別並即時翻譯,為跨境交流提供強大技術支撐。
保留語氣與情感
另一項備受矚目的功能是「個人聲音」(Personal Voice)。該技術能在翻譯過程中最大限度保留原說話者的語調、語速、語氣與情緒,使最終翻譯語音更真實自然。
這項能力尤其適用於需要情感傳遞的場合,例如客服溝通、線上課程、公共演講與語音導覽。微軟同時強調,該功能設有企業級授權與權限控管,確保只有在用戶授權下才會使用個人語音模型,全面保障隱私與專屬性。
多元應用場景
微軟在公告中特別指出,「即時翻譯員API」具有橫跨多產業的應用潛力:包括多語客服與呼叫中心,客服人員能即時聽懂並回應不同語系客戶需求,提升回應速度與滿意度;線上會議與虛擬活動:跨國會議中,API 可即時翻譯與會者發言,取代傳統口譯設備,降低溝通障礙;多語教學與教育平權:教育平台能即時翻譯課程內容,幫助不同語言背景學生同步學習;電商直播與社交互動:主播可透過翻譯即時與全球觀眾交流,突破語言隔閡,拓展市場版圖。
微軟亦分享了與中國知名科技品牌安克創新(Anker Innovations)的合作案例。安克表示,透過整合Azure即時翻譯員功能,能為全球用戶帶來更智能、更沉浸的視聽體驗,顯示該技術在實際應用上的價值。
為方便開發人員應用,微軟提供完整的快速入門指南,支援C#、Python等多種程式語言,並能跨平台部署,讓 API 輕鬆整合至現有應用程式或服務中。不過,目前此功能尚未直接面向一般消費者,而是供第三方平台或應用整合,最終由使用者在會議軟體、客服系統或教育平台中體驗到其翻譯能力。 (編輯部)