OpenAI發布「AI打工人報告」效率提高百倍成本僅百分之一

OpenAI發布「AI打工人報告」

效率提高百倍成本僅百分之一

28/09/2025

29619

在生成式人工智能工具快速湧現的當下，如何準確衡量其在企業環境中的實際價值，成為產業與學界共同關注的焦點。科技媒體《ZDNet》26日報道，OpenAI正式發布一套名為GDPval的全新AI評估基準，旨在填補傳統學術測試與真實應用場景之間的落差，為業界提供更具參考性的標準。

OpenAI 表示，GDPval 的設計核心在於「衡量AI 在具有經濟價值的真實世界任務中的表現」。與過往依賴文本提示的測評不同，GDPval深度模擬辦公場景，要求模型完成文件處理、幻燈片製作與文檔格式化等多模態交付任務，進一步檢驗其綜合能力。

該基準覆蓋美國GDP貢獻最高的九大產業，涉及44個職業、共1,320項具體任務，並由平均擁有14年經驗的專業人士設計，確保任務的真實性與複雜度。OpenAI強調，這種設計能夠更貼近企業實際需求，提供一個更符合市場價值的量化指標。

不同AI各有強項

在首輪測試中，OpenAI 邀請專家對多款前沿模型的輸出進行盲評，其中包括自家的 GPT-5、GPT-4o，以及來自Anthropic的Claude Opus 4.1和谷歌的Gemini 2.5 Pro。

結果顯示，Claude Opus 4.1在文檔排版、幻燈片設計等「美學」層面表現突出，綜合排名居首；而備受矚目的GPT-5則在特定專業領域知識的「準確性」方面領先群雄。這一結果表明，不同模型在實際應用場景中各具強項，未必能以單一標準全面評定。

效率提升百倍

OpenAI 同時發布了一份被稱為「AI打工人報告」的研究文件，揭示了模型性能的飛速進步與成本效益。數據顯示，從2024年春季推出的 GPT-4o 到預計 2025 年夏季亮相的GPT-5，模型整體性能提升超過一倍。

更令人矚目的是，研究發現前沿模型在GDPval任務上的表現，平均速度比人類專家快約100倍，而成本則僅為後者的百分之一。換言之，在純粹的推理環節，AI已展現出壓倒性的效率與經濟優勢。

不過，OpenAI也坦言，這些數據僅反映模型推理階段的花費，並未納入實際工作中所需的人工監督、方案迭代與系統整合等環節，因此與企業真實成本之間仍有差距。

OpenAI 強調，GDPval 目前仍處於初期版本，主要聚焦於一次性任務的表現，尚不足以評估 AI 處理多輪修改、長期協作或高度模糊問題的能力。例如，它尚無法全面反映模型根據客戶反饋修改方案、處理突發數據異常或在複雜項目中持續參與的表現。

未來，OpenAI 計劃逐步擴展 GDPval 的任務範疇，涵蓋更多行業以及難以完全自動化的工種，並承諾將部分數據集開放給研究人員使用，以推動學術界與產業界更深入的驗證與改進。

隨著 AI 技術不斷演進，企業對其真實生產力的評估需求日益迫切。傳統基準測試往往聚焦語言生成的精確度或邏輯性，但對 AI 在具體商業流程中的價值缺乏直接反映。GDPval 的推出，被視為一次嘗試將評測標準與宏觀經濟價值掛鉤，凸顯 AI 對實際經濟活動的潛在影響。（編輯部）

效率提高百倍成本僅百分之一