首個「毫秒級」即時生圖AI模型問世  

騰訊發布混元圖像2.0
18/05/2025
3065
收藏
分享
騰訊發布混元圖像2.0

中國科技巨頭騰訊於5月16日正式推出AI業界首個支援「毫秒級回應」的即時圖像生成大模型——混元圖像2.0(Hunyuan Image 2.0),並已於騰訊混元官網上線,對外開放註冊與體驗。該模型主打兩大核心特點:極速生成與超寫實畫質,標誌著中國生成式AI邁入更高即時性與畫面品質的新階段。

據《快科技》報道,混元圖像2.0在技術上取得多項突破,其模型參數規模較前代提升一個數量級,並採用全新高壓縮圖像轉碼器與擴散架構,使圖像推理速度遠超同類主流商業產品。一般圖像生成模型每張圖像需耗時5至10秒,而騰訊混元圖像2.0則可實現「毫秒級」回應,支援用戶在輸入文字或語音指令的同時,即時生成圖像,顛覆以往「輸入等待—再出圖」的操作模式。

除了速度優勢,混元圖像2.0在畫質呈現上亦有明顯提升。該模型引入強化學習機制與大規模美學對齊資料訓練,生成圖像可有效避免常見AIGC畫面的「AI味」,細節更精緻、真實感更強,整體可用性顯著提高。據測試結果顯示,在業界評估圖像生成與語義理解能力的基準測試GenEval(Geneval Bench)中,混元圖像2.0準確率高達95%,領先全球同類模型。

結構化caption系統

騰訊進一步指出,該模型內建多模態大語言模型(MLLM)作為文本理解核心,結合自主開發的結構化caption系統,可深入解析提示語句中潛藏的多層語意,進行「語義拆解→畫面重構」的全流程理解與生成。即便用戶輸入的語句含有抽象、複雜甚至多義語境,混元圖像2.0亦能逐層剖析語意,準確繪出對應畫面。

應用方面,混元圖像2.0支援語音提示輸入,用戶可透過語音直接生成圖像,系統將語音轉為文字後即時出圖,特別適用於直播講解、移動創作等高即時性場景。此外,該模型亦支援上傳草圖作為輔助,能自動識別線稿中的構圖與輪廓,並根據提示詞補全光影、材質、背景等細節,一鍵擴圖成型,為插畫、設計與概念草圖開啟全新工作流。

為AIGC產業提供更多可能

目前,騰訊已於其混元AI平台開放該模型使用,向設計師、內容創作者、企業研發團隊等開放體驗申請。業內人士認為,此次混元圖像2.0的推出,象徵中國AI繪圖技術已能與國際領先模型正面競爭,並在速度與語義理解層面開創差異化優勢,為AIGC產業落地提供更多可能。

騰訊方面表示,未來將持續推進多模態生成模型的深度融合與產品化應用,並計劃在遊戲、美術、數位文創、廣告設計等場景擴大部署混元圖像2.0能力,協助用戶實現更高效、更精準的創作體驗。 (編輯部)

檢舉
檢舉類型:
具體描述:
提交
取消
評論
發佈

力報會員可享用評論功能

註冊 / 登錄

查看更多評論
收藏
分享

相關新聞

推薦新聞

找不到相關內容

七日預報