人工智能公司OpenAI近日正式發布新一代GPT-5.4系列模型,涵蓋面向ChatGPT與API服務的GPT-5.4 Thinking版本,以及面向高端應用的GPT-5.4 Pro版本。公司表示,這是首次將先進推理、程式編碼與智能體(Agent)能力整合至單一模型中,目標是提升專業知識工作與複雜任務處理效率。
在ChatGPT產品中,GPT-5.4 Thinking新增「思考過程預覽」功能。當模型處理複雜問題時,可提前展示推理思路,用戶在回應生成過程中即可調整方向,從而減少反覆溝通,提高獲得理想結果的效率。該功能目前已在網頁版及Android應用上線,iOS版本預計稍後推出。
OpenAI同時強化模型的長上下文理解能力。GPT-5.4支持高達100萬token的上下文窗口,使模型在長時間對話與多步任務中能保持更高的一致性與連貫性。官方表示,該能力特別適用於需要長時間推理與多輪操作的任務,例如研究分析或複雜項目管理。
在專業知識工作方面,GPT-5.4的表現亦顯著提升。OpenAI測試顯示,在涵蓋44個職業領域的GDPval評估基準中,GPT-5.4在83%的任務中達到或超越行業專業水平,而上一代GPT-5.2的比例為70.9%。在投行級電子表格建模測試中,GPT-5.4平均得分達87.3%,遠高於GPT-5.2的68.4%。
陳述錯誤率降低約33%
在商業簡報評估中,評審者對GPT-5.4生成內容的偏好比例為68%,明顯高於GPT-5.2的32%。OpenAI指出,新模型在設計美感、視覺變化以及圖像生成應用方面均有提升。
錯誤率方面,GPT-5.4亦被OpenAI稱為目前最「事實準確」的模型。與GPT-5.2相比,其單個陳述錯誤率降低約33%,而整體回答出現任何錯誤的概率下降約18%。
在計算機操作能力上,GPT-5.4亦取得突破。該模型成為OpenAI首個具備原生電腦操作能力的通用模型,可透過截圖、鍵盤與滑鼠指令操作電腦,完成跨應用程式的複雜工作流程。
在OSWorld-Verified測試(模擬PC桌面操作環境)中,GPT-5.4成功率達75%,高於GPT-5.2的47.3%,甚至略高於人類測試者的72.4%。在WebArena-Verified瀏覽器測試中,模型成功率為67.3%,亦高於GPT-5.2的65.4%。
視覺理解能力亦有所提升。在MMMU-Pro多模態理解測試中,GPT-5.4成功率為81.2%,略高於GPT-5.2的79.5%;在OmniDocBench文件解析測試中,平均錯誤率由0.140下降至0.109。
加入「工具搜索」功能
在程式編碼能力方面,GPT-5.4整合了GPT-5.3-Codex的技術優勢,在SWE-Bench Pro測試中表現與Codex相當甚至更佳,同時延遲更低。Codex中的「/fast」模式可提升約1.5倍token生成速度。
新模型亦加入「工具搜索」(tool search)功能,使AI在使用外部工具與API時更高效。在Scale的MCP Atlas測試中,啟用該功能後,模型在保持同等準確率下,token消耗量降低約47%。
在網絡搜索能力方面,GPT-5.4同樣取得進步。在BrowseComp測試中,模型表現較GPT-5.2提升17個百分點,而高性能版本GPT-5.4 Pro更達到89.3%的成功率。
安全方面,OpenAI表示,GPT-5.4延續GPT-5.3-Codex的安全機制,並新增名為「CoT可控性」(Chain-of-Thought controllability)的開源評估方法,以加強對模型推理過程的安全監測。
在產品部署方面,GPT-5.4 Thinking已面向ChatGPT Plus、Team及Pro用戶開放,並取代GPT-5.2 Thinking。舊版本將在模型選擇器中保留三個月,並於2026年6月5日正式退役。Enterprise及Edu用戶則可透過管理員設定啟用早期測試。
對開發者而言,GPT-5.4將在API平台以「gpt-5.4」名稱提供服務,而高性能版本則以「gpt-5.4-pro」提供。OpenAI表示,該系列模型是首次在ChatGPT、API與Codex平台同步推出的主流推理模型,未來Instant模型與Thinking模型將以不同速度持續演進。 (編輯部)