螞蟻開源全模態大模型Ming-Flash-Omni 2.0

整合語音、影像與生成能力
12/02/2026
2219
收藏
分享
整合語音、影像與生成能力

螞蟻集團宣布開源全模態大模型Ming-Flash-Omni 2.0,在視覺語言理解、語音生成及圖像編輯等多項公開基準測試中表現突出。該模型主打統一多模態架構,可同時處理影像、語音與生成任務,為端到端多模態應用提供單一能力入口。

Ming-Flash-Omni 2.0為業界首個全場景音頻統一生成模型,可於同一音軌同步生成語音、環境音效與音樂,並支援以自然語言精細控制音色、語速、情緒及方言。模型推理幀率降至3.1Hz,可即時生成分鐘級長音頻,同時兼顧效能與成本。

該模型基於Ling-2.0 MoE架構(100B-A6B)訓練,視覺能力結合大規模細粒度資料與難例學習,提升對複雜物件的辨識準確度;圖像端則強化光影調整、場景替換與人物姿態優化等編輯能力,在動態場景下仍維持畫面穩定。

螞蟻表示,開源Ming-Flash-Omni 2.0有助開發者降低多模型串接成本,加快多模態應用落地。目前模型權重與推理程式已於Hugging Face發布,亦可透過百靈Ling Studio平台線上體驗。(編輯部)

檢舉
檢舉類型:
具體描述:
提交
取消
評論
發佈

力報會員可享用評論功能

註冊 / 登錄

查看更多評論
收藏
分享

相關新聞

推薦新聞

找不到相關內容

七日預報