OpenAI發布GPT-5.4系列模型推理與電腦操控能力全面升級

人工智能公司OpenAI近日正式發布新一代GPT-5.4系列模型，涵蓋面向ChatGPT與API服務的GPT-5.4 Thinking版本，以及面向高端應用的GPT-5.4 Pro版本。公司表示，這是首次將先進推理、程式編碼與智能體（Agent）能力整合至單一模型中，目標是提升專業知識工作與複雜任務處理效率。

在ChatGPT產品中，GPT-5.4 Thinking新增「思考過程預覽」功能。當模型處理複雜問題時，可提前展示推理思路，用戶在回應生成過程中即可調整方向，從而減少反覆溝通，提高獲得理想結果的效率。該功能目前已在網頁版及Android應用上線，iOS版本預計稍後推出。

OpenAI同時強化模型的長上下文理解能力。GPT-5.4支持高達100萬token的上下文窗口，使模型在長時間對話與多步任務中能保持更高的一致性與連貫性。官方表示，該能力特別適用於需要長時間推理與多輪操作的任務，例如研究分析或複雜項目管理。

在專業知識工作方面，GPT-5.4的表現亦顯著提升。OpenAI測試顯示，在涵蓋44個職業領域的GDPval評估基準中，GPT-5.4在83%的任務中達到或超越行業專業水平，而上一代GPT-5.2的比例為70.9%。在投行級電子表格建模測試中，GPT-5.4平均得分達87.3%，遠高於GPT-5.2的68.4%。

陳述錯誤率降低約33%

在商業簡報評估中，評審者對GPT-5.4生成內容的偏好比例為68%，明顯高於GPT-5.2的32%。OpenAI指出，新模型在設計美感、視覺變化以及圖像生成應用方面均有提升。

錯誤率方面，GPT-5.4亦被OpenAI稱為目前最「事實準確」的模型。與GPT-5.2相比，其單個陳述錯誤率降低約33%，而整體回答出現任何錯誤的概率下降約18%。

在計算機操作能力上，GPT-5.4亦取得突破。該模型成為OpenAI首個具備原生電腦操作能力的通用模型，可透過截圖、鍵盤與滑鼠指令操作電腦，完成跨應用程式的複雜工作流程。

在OSWorld-Verified測試（模擬PC桌面操作環境）中，GPT-5.4成功率達75%，高於GPT-5.2的47.3%，甚至略高於人類測試者的72.4%。在WebArena-Verified瀏覽器測試中，模型成功率為67.3%，亦高於GPT-5.2的65.4%。

視覺理解能力亦有所提升。在MMMU-Pro多模態理解測試中，GPT-5.4成功率為81.2%，略高於GPT-5.2的79.5%；在OmniDocBench文件解析測試中，平均錯誤率由0.140下降至0.109。

加入「工具搜索」功能

在程式編碼能力方面，GPT-5.4整合了GPT-5.3-Codex的技術優勢，在SWE-Bench Pro測試中表現與Codex相當甚至更佳，同時延遲更低。Codex中的「/fast」模式可提升約1.5倍token生成速度。

新模型亦加入「工具搜索」（tool search）功能，使AI在使用外部工具與API時更高效。在Scale的MCP Atlas測試中，啟用該功能後，模型在保持同等準確率下，token消耗量降低約47%。

在網絡搜索能力方面，GPT-5.4同樣取得進步。在BrowseComp測試中，模型表現較GPT-5.2提升17個百分點，而高性能版本GPT-5.4 Pro更達到89.3%的成功率。

安全方面，OpenAI表示，GPT-5.4延續GPT-5.3-Codex的安全機制，並新增名為「CoT可控性」（Chain-of-Thought controllability）的開源評估方法，以加強對模型推理過程的安全監測。

在產品部署方面，GPT-5.4 Thinking已面向ChatGPT Plus、Team及Pro用戶開放，並取代GPT-5.2 Thinking。舊版本將在模型選擇器中保留三個月，並於2026年6月5日正式退役。Enterprise及Edu用戶則可透過管理員設定啟用早期測試。

對開發者而言，GPT-5.4將在API平台以「gpt-5.4」名稱提供服務，而高性能版本則以「gpt-5.4-pro」提供。OpenAI表示，該系列模型是首次在ChatGPT、API與Codex平台同步推出的主流推理模型，未來Instant模型與Thinking模型將以不同速度持續演進。（編輯部）

推理與電腦操控能力全面升級

OpenAI發布GPT-5.4系列模型

相關新聞

王祖賢授權AI肖像重現經典形象
推首支明星AIGC遊戲廣告

研究：AI建議削弱批判思考
人類更少承認「不知道」

美國42州串聯反對AI數據中心
民眾憂耗電搶水及佔用土地

Hugging Face遭AI智能體攻擊
部分憑證及內部數據被存取

AI深偽兒童影像激增
英籲家長慎防「曬娃」照片遭濫用

AI深偽兒童影像激增
英籲家長慎防「曬娃」照片遭濫用

WAIC舉行AI女性論壇
香港女太空人黎家盈太空送祝福

習近平在WAIC倡建全球AI治理體系
中國將提供5,000個AI培訓名額

推薦新聞

「司法警察日」系列活動圓滿舉行

琴澳政務宣傳骨幹走進橫琴國際影視城
開展AI短視頻策劃專題研習

有片！天沐河畔奏響夏日序曲
橫琴2026盛夏音樂會正式啟幕

余文樂宣布離婚
結束近9年的婚姻

抽紙巾被指藏大量活螞蟻
品牌致歉稱暫難確定來源

杭州女博主稱遭陌生「黃總」邀入包廂
餐廳停業事件真偽待查

揭陽男童虐殺流浪犬引海外聲援
抵制行動掀連坐爭議

《中國達人秀》劉凱瀟成邪教教主
涉女信徒死亡案多項罪成

即時新聞

《海域使用法》完成細則性審議並簽署意見書

消防局聯合城燃公司開展高壓天然氣洩漏演習

提升緊急應變與跨部門協調能力

永利皇宮擴建計劃獲批

擬建新酒店及升級旅遊設施

王祖賢授權AI肖像重現經典形象

推首支明星AIGC遊戲廣告

中央網信辦啟動未成年人網路整治

嚴查AI惡搞軟色情陪聊及誘導消費

稱考「牛津碩士」騙父母舉債千萬

只為塑造富二代形象揮霍

七日預報

推理與電腦操控能力全面升級

OpenAI發布GPT-5.4系列模型

相關新聞

王祖賢授權AI肖像重現經典形象 推首支明星AIGC遊戲廣告

研究：AI建議削弱批判思考 人類更少承認「不知道」

美國42州串聯反對AI數據中心 民眾憂耗電搶水及佔用土地

Hugging Face遭AI智能體攻擊 部分憑證及內部數據被存取

AI深偽兒童影像激增 英籲家長慎防「曬娃」照片遭濫用

AI深偽兒童影像激增 英籲家長慎防「曬娃」照片遭濫用

WAIC舉行AI女性論壇 香港女太空人黎家盈太空送祝福

習近平在WAIC倡建全球AI治理體系 中國將提供5,000個AI培訓名額

推薦新聞

「司法警察日」系列活動圓滿舉行

琴澳政務宣傳骨幹走進橫琴國際影視城 開展AI短視頻策劃專題研習

有片！天沐河畔奏響夏日序曲 橫琴2026盛夏音樂會正式啟幕

余文樂宣布離婚 結束近9年的婚姻

抽紙巾被指藏大量活螞蟻 品牌致歉稱暫難確定來源

杭州女博主稱遭陌生「黃總」邀入包廂 餐廳停業 事件真偽待查

揭陽男童虐殺流浪犬引海外聲援 抵制行動掀連坐爭議

《中國達人秀》劉凱瀟成邪教教主 涉女信徒死亡案多項罪成

即時新聞

《海域使用法》完成細則性審議並簽署意見書

消防局聯合城燃公司開展高壓天然氣洩漏演習

提升緊急應變與跨部門協調能力

​永利皇宮擴建計劃獲批

擬建新酒店及升級旅遊設施

王祖賢授權AI肖像重現經典形象

推首支明星AIGC遊戲廣告

中央網信辦啟動未成年人網路整治

嚴查AI惡搞 軟色情陪聊及誘導消費

稱考「牛津碩士」騙父母舉債千萬

只為塑造富二代形象揮霍

微信 ID： exmoo_news

七日預報

微信 ID： exmoo_news

王祖賢授權AI肖像重現經典形象
推首支明星AIGC遊戲廣告

研究：AI建議削弱批判思考
人類更少承認「不知道」

美國42州串聯反對AI數據中心
民眾憂耗電搶水及佔用土地

Hugging Face遭AI智能體攻擊
部分憑證及內部數據被存取

AI深偽兒童影像激增
英籲家長慎防「曬娃」照片遭濫用

AI深偽兒童影像激增
英籲家長慎防「曬娃」照片遭濫用

WAIC舉行AI女性論壇
香港女太空人黎家盈太空送祝福

習近平在WAIC倡建全球AI治理體系
中國將提供5,000個AI培訓名額

琴澳政務宣傳骨幹走進橫琴國際影視城
開展AI短視頻策劃專題研習

有片！天沐河畔奏響夏日序曲
橫琴2026盛夏音樂會正式啟幕

余文樂宣布離婚
結束近9年的婚姻

抽紙巾被指藏大量活螞蟻
品牌致歉稱暫難確定來源

杭州女博主稱遭陌生「黃總」邀入包廂
餐廳停業事件真偽待查

揭陽男童虐殺流浪犬引海外聲援
抵制行動掀連坐爭議

《中國達人秀》劉凱瀟成邪教教主
涉女信徒死亡案多項罪成

永利皇宮擴建計劃獲批

嚴查AI惡搞軟色情陪聊及誘導消費