綜合內地媒體報道,字節跳動Seed團隊於24日宣布推出新一代形式化數學推理專用模型 Seed Prover 1.5,主打透過大規模 Agentic RL(代理式強化學習)訓練,全面提升模型的推理能力與運算效率,被視為形式化數學推理領域的重要進展。
相較上一代模型,Seed Prover 1.5在效能上出現明顯躍升。團隊指出,該模型僅用 16.5 小時,便針對 IMO 2025的前五道試題生成完整、可編譯且可驗證的 Lean 證明程式碼,換算成績為35分(滿分42分),已達到過往IMO 評分標準中的金牌門檻。此外,在北美頂尖本科數學競賽Putnam測試中,模型於9小時內,成功為2025年賽題中的11道題目生成可驗證的Lean 程式碼,展現出穩定且高效率的推理能力。
在更系統性的評估中,Seed Prover 1.5於完整Putnam歷史題庫中解決率達 88%;在代表碩士難度的 Fate-H與博士級別的 Fate-X 評測集上,解題率分別為80%與33%,全面刷新相關基準測試的SOTA(State of the Art)紀錄。業界普遍認為,這一成果顯示形式化數學推理模型正快速逼近高階人類數學推理水準。(編輯部)