淘天集團未來生活實驗室團隊宣布,其自主研發的 CombatVLA 已獲 ICCV 2025 接收。這是一款規模達 30 億參數的多模態模型,專為 3D 動作角色扮演遊戲(ARPG)戰鬥場景打造。相比 GPT-4o 以及人類玩家,CombatVLA 在遊戲中展現出更高的任務成功率和50倍推理速度提升。
CombatVLA 的核心創新在於引入「動作思維(Action-of-Thought, AoT)」機制,將遊戲中的視覺感知、語義理解與動作決策結合,並以截斷輸出策略實現秒級反應。實驗中,模型能識別血量與敵方狀態,靈活完成後撤回血、技能控制、閃避反擊及「忍殺」等複雜操作,在《黑神話:悟空》及《隻狼:影逝二度》均超越人類玩家表現。
為支撐模型訓練,團隊研發了 動作追蹤器,可自動記錄鍵鼠操作並生成 AoT 數據,進一步建立 CUBench 戰鬥理解評測基準,全面測試模型在資訊獲取、理解與推理上的能力。透過三階段漸進式學習,CombatVLA 在戰鬥理解準確率和即時決策效率上均達到最優。
此舉標誌著 VLA 技術首次在 3D 戰鬥遊戲中展現超越人類的實戰能力,為具身智能與遊戲AI應用開闢新方向。(編輯部)