通義千問推Qwen-Image 

支援吉卜力風格
06/08/2025
3181
收藏
分享
支援吉卜力風格

阿里巴巴旗下阿里雲宣布,通義千問系列首個圖像生成基礎模型「Qwen-Image」正式開源。這是一款擁有200億參數的MMDiT模型,具備強大的圖像生成與編輯能力,特別在複雜文本渲染與多風格圖像創作上表現突出。

Qwen-Image支援生成多種圖像風格,從寫實攝影、極簡設計到賽博朋克、科幻、水墨畫風,甚至連吉卜力動畫風格也可實現,展現出高度靈活的創作能力。阿里巴巴表示,該模型旨在降低視覺內容創作的技術門檻,推動圖像生成技術的普及與創新應用。

在文本渲染方面,Qwen-Image支援多行排版、段落級文字生成及細節呈現,能高保真處理中英文內容。透過增強的多任務訓練架構,該模型在圖像編輯過程中亦能保持風格與內容一致性。

通義千問團隊也針對多項公開基準進行測試,包括GenEval、DPG、OneIG-Bench、GEdit、ImgEdit及GSO,Qwen-Image在所有測試中均表現出領先效能。阿里雲強調,此次開源將有助於推動多模態AI技術發展,激發更豐富的視覺創作可能。(編輯部)

檢舉
檢舉類型:
具體描述:
提交
取消
評論
發佈

力報會員可享用評論功能

註冊 / 登錄

查看更多評論
收藏
分享

相關新聞

推薦新聞

找不到相關內容

七日預報