螞蟻集團宣布開源全模態大模型Ming-Flash-Omni 2.0,在視覺語言理解、語音生成及圖像編輯等多項公開基準測試中表現突出。該模型主打統一多模態架構,可同時處理影像、語音與生成任務,為端到端多模態應用提供單一能力入口。
Ming-Flash-Omni 2.0為業界首個全場景音頻統一生成模型,可於同一音軌同步生成語音、環境音效與音樂,並支援以自然語言精細控制音色、語速、情緒及方言。模型推理幀率降至3.1Hz,可即時生成分鐘級長音頻,同時兼顧效能與成本。
該模型基於Ling-2.0 MoE架構(100B-A6B)訓練,視覺能力結合大規模細粒度資料與難例學習,提升對複雜物件的辨識準確度;圖像端則強化光影調整、場景替換與人物姿態優化等編輯能力,在動態場景下仍維持畫面穩定。
螞蟻表示,開源Ming-Flash-Omni 2.0有助開發者降低多模型串接成本,加快多模態應用落地。目前模型權重與推理程式已於Hugging Face發布,亦可透過百靈Ling Studio平台線上體驗。(編輯部)