首個「毫秒級」即時生圖AI模型問世　騰訊發布混元圖像2.0

首個「毫秒級」即時生圖AI模型問世　

騰訊發布混元圖像2.0

18/05/2025

35311

中國科技巨頭騰訊於5月16日正式推出AI業界首個支援「毫秒級回應」的即時圖像生成大模型——混元圖像2.0（Hunyuan Image 2.0），並已於騰訊混元官網上線，對外開放註冊與體驗。該模型主打兩大核心特點：極速生成與超寫實畫質，標誌著中國生成式AI邁入更高即時性與畫面品質的新階段。

據《快科技》報道，混元圖像2.0在技術上取得多項突破，其模型參數規模較前代提升一個數量級，並採用全新高壓縮圖像轉碼器與擴散架構，使圖像推理速度遠超同類主流商業產品。一般圖像生成模型每張圖像需耗時5至10秒，而騰訊混元圖像2.0則可實現「毫秒級」回應，支援用戶在輸入文字或語音指令的同時，即時生成圖像，顛覆以往「輸入等待—再出圖」的操作模式。

除了速度優勢，混元圖像2.0在畫質呈現上亦有明顯提升。該模型引入強化學習機制與大規模美學對齊資料訓練，生成圖像可有效避免常見AIGC畫面的「AI味」，細節更精緻、真實感更強，整體可用性顯著提高。據測試結果顯示，在業界評估圖像生成與語義理解能力的基準測試GenEval（Geneval Bench）中，混元圖像2.0準確率高達95%，領先全球同類模型。

結構化caption系統

騰訊進一步指出，該模型內建多模態大語言模型（MLLM）作為文本理解核心，結合自主開發的結構化caption系統，可深入解析提示語句中潛藏的多層語意，進行「語義拆解→畫面重構」的全流程理解與生成。即便用戶輸入的語句含有抽象、複雜甚至多義語境，混元圖像2.0亦能逐層剖析語意，準確繪出對應畫面。

應用方面，混元圖像2.0支援語音提示輸入，用戶可透過語音直接生成圖像，系統將語音轉為文字後即時出圖，特別適用於直播講解、移動創作等高即時性場景。此外，該模型亦支援上傳草圖作為輔助，能自動識別線稿中的構圖與輪廓，並根據提示詞補全光影、材質、背景等細節，一鍵擴圖成型，為插畫、設計與概念草圖開啟全新工作流。

為AIGC產業提供更多可能

目前，騰訊已於其混元AI平台開放該模型使用，向設計師、內容創作者、企業研發團隊等開放體驗申請。業內人士認為，此次混元圖像2.0的推出，象徵中國AI繪圖技術已能與國際領先模型正面競爭，並在速度與語義理解層面開創差異化優勢，為AIGC產業落地提供更多可能。

騰訊方面表示，未來將持續推進多模態生成模型的深度融合與產品化應用，並計劃在遊戲、美術、數位文創、廣告設計等場景擴大部署混元圖像2.0能力，協助用戶實現更高效、更精準的創作體驗。（編輯部）

騰訊發布混元圖像2.0