字節跳動開源多模態模型BAGEL 支持文本圖像視頻統一理解和生成

字節跳動開源多模態模型BAGEL

支持文本圖像視頻統一理解和生成

04/06/2025

23901

在全球生成式人工智能競爭日益激烈的當下，除了OpenAI、Google等美國科技巨頭頻頻推出新產品外，中國的科技龍頭也正加緊腳步，不僅推進推理模型的研發，更積極投資AI晶片與基礎設施。繼阿里巴巴的Qwen與DeepSeek引發關注後，騰訊、百度與字節跳動亦陸續展現實力，尤其是TikTok母公司字節跳動，正逐步浮出水面。

據悉，字節跳動預計在2025年於AI晶片與AI基礎建設投入高達120億美元資金，展現搶佔全球AI舞台的野心。事實上，早在ChatGPT問世前，字節跳動便已是全球領先的消費級AI應用開發者之一。根據其2024年財報，全年營收大增29%，達到1,550億美元，反映其在內容推薦、廣告優化與社交商務領域的AI實力。

在語言模型領域，字節跳動亦不落人後。該公司Seed團隊近期將其自主研發的大型語言模型「Seed-Thinker-v1.5」推向市場，聚焦於STEM（科學、技術、工程、數學）等具挑戰性的推理任務，並與DeepSeek近期更新的R1模型形成直接競爭。儘管DeepSeek的故事已為西方科技媒體廣為報導，字節跳動的模型研發實力與背後龐大的應用帝國，仍待更多全球觀察者認識。

多模態高階模型

進一步顯示其AI研發實力，字節跳動上周宣布開源名為「BAGEL」的多模態生成模型。根據IT之家報導，BAGEL支援統一的文本、圖像與影片理解與生成，為目前開源界罕見可同時處理多類型輸入並生成混合輸出的高階模型。BAGEL總參數達140億，其中有70億為激活參數，基於大規模交錯式多模態數據進行預訓練。

在性能表現方面，BAGEL超越了包括Qwen2.5-VL與InternVL-2.5等多個熱門開源多模態模型，在標準排行榜上名列前茅；其圖像生成品質更達可與專業生成工具如Stable Diffusion 3（SD3）競爭的水準。此外，BAGEL亦在圖像編輯場景中表現出色，尤其在定性輸出上優於目前主流開源模型。

更具突破性的是，BAGEL具備世界建模能力，能處理自由視角切換、多視圖合成、3D場景預測等任務。這意味著BAGEL不僅是影像編輯工具，更可作為AI導覽助手，用於模擬世界中的導航與未來場景預測。模型可接受文字與圖像混合輸入，並以混合形式產出回應，支援長鏈式推理（Chain-of-Thought, COT），具備「先思考再回答」的能力，進一步強化其推理深度。

捕捉細節與運動軌跡

字節跳動表示，BAGEL透過大量交錯的圖文與影片數據學習，可自然保留圖像細節，捕捉運動軌跡，並應用於真實世界、遊戲場景、動畫藝術等各類情境。其統一的多模態接口亦使得模型能靈活組合多種能力，完成多輪對話、圖文混合編輯與複雜操作。

隨著BAGEL的開源與Seed模型的持續推進，字節跳動在生成式AI領域的佈局正逐步完整，不僅彰顯其「科技中台」戰略成果，更顯示中國在不限權重的開放式大模型競爭中，有望於2025年底前走在全球前列。未來，隨著TikTok與抖音背後的AI基礎能力持續擴展，中國的社交與內容平台，將有機會透過本地化大模型與AI應用，主導新一輪的全球內容生態競爭。（編輯部）

支持文本圖像視頻統一理解和生成