螞蟻開源全模態大模型Ming-Flash-Omni 2.0 整合語音、影像與生成能力

螞蟻開源全模態大模型Ming-Flash-Omni 2.0

整合語音、影像與生成能力

12/02/2026

2219

螞蟻集團宣布開源全模態大模型Ming-Flash-Omni 2.0，在視覺語言理解、語音生成及圖像編輯等多項公開基準測試中表現突出。該模型主打統一多模態架構，可同時處理影像、語音與生成任務，為端到端多模態應用提供單一能力入口。

Ming-Flash-Omni 2.0為業界首個全場景音頻統一生成模型，可於同一音軌同步生成語音、環境音效與音樂，並支援以自然語言精細控制音色、語速、情緒及方言。模型推理幀率降至3.1Hz，可即時生成分鐘級長音頻，同時兼顧效能與成本。

該模型基於Ling-2.0 MoE架構（100B-A6B）訓練，視覺能力結合大規模細粒度資料與難例學習，提升對複雜物件的辨識準確度；圖像端則強化光影調整、場景替換與人物姿態優化等編輯能力，在動態場景下仍維持畫面穩定。

螞蟻表示，開源Ming-Flash-Omni 2.0有助開發者降低多模型串接成本，加快多模態應用落地。目前模型權重與推理程式已於Hugging Face發布，亦可透過百靈Ling Studio平台線上體驗。（編輯部）

整合語音、影像與生成能力