阿里巴巴最新發表語音驅動虛擬角色生成模型「OmniAvatar」,擴展AI生成影片技術應用範疇。該模型可根據語音與簡單提示,即時生成栩栩如生的全身動畫角色,具備自然動作、豐富表情與高度語音同步的嘴型對應,象徵虛擬人技術進入全新發展階段。
OmniAvatar整合臉部表情控制、肢體語言模擬與情緒感知能力,角色可根據語音內容展現喜悅、驚訝、憤怒等多種情緒,並模擬拿取物品、指向場景等動作,提升虛擬互動的真實感。用戶更可透過文字指令調整背景與角色語氣,甚至生成虛擬人演唱片段,呈現接近真人的口型與節奏。
阿里巴巴已於Arxiv公開發表研究論文,說明模型透過跨模態學習整合語音、視覺與姿勢特徵,是實現高同步與自然表現的關鍵。儘管目前部分視覺細節仍略顯「塑膠感」,但技術成熟度已吸引教育、客服、娛樂等領域高度關注,被視為推動數位互動內容升級的重要突破。(編輯部)