Google高層日前以「Nano Banana」暗號吊足市場胃口,當地時間26日終於揭曉,由旗下DeepMind 推出全新圖像生成與編輯模型 Gemini 2.5 Flash Image,並在 Gemini應用程式中向用戶免費開放。該模型主打能根據文字提示進行更精準編輯,同時保持角色與物件外觀一致,解決現有生成工具常見的面部扭曲與背景不自然問題。
Google表示,新模型可支援模糊背景、去除衣物污漬、移除人物、改變姿勢,甚至為黑白照片上色,並具備「世界知識」能力,可融合多張參考圖像生成協調結果。為防止濫用,所有生成圖像均會加上浮水印與 metadata 標記。除了 Gemini 應用程式,Gemini 2.5 Flash Image 亦透過 API、Google AI Studio 和 Vertex AI 提供開發者使用,每百萬輸出詞元收費 30 美元,折合每張圖約 0.039 美元。
圖像生成已成科技巨頭的競爭焦點。OpenAI 今年 3 月推出的 ChatGPT 4o 圖像生成功能掀起用戶熱潮,每週活躍用戶突破 7 億。相比之下,Google 上季披露 Gemini 月活用戶為 4.5 億,新功能被視為追趕對手的重要一步。同時,Meta 近期宣布與 Midjourney 合作,德國新創 Black Forest Labs 的 FLUX 模型亦表現亮眼,顯示全球 AI 圖像賽道競爭持續升溫。(編輯部)