OpenAI發布「AI打工人報告」

效率提高百倍 成本僅百分之一
28/09/2025
2980
收藏
分享
效率提高百倍 成本僅百分之一

在生成式人工智能工具快速湧現的當下,如何準確衡量其在企業環境中的實際價值,成為產業與學界共同關注的焦點。科技媒體《ZDNet》26日報道,OpenAI正式發布一套名為GDPval的全新AI評估基準,旨在填補傳統學術測試與真實應用場景之間的落差,為業界提供更具參考性的標準。

OpenAI 表示,GDPval 的設計核心在於「衡量AI 在具有經濟價值的真實世界任務中的表現」。與過往依賴文本提示的測評不同,GDPval深度模擬辦公場景,要求模型完成文件處理、幻燈片製作與文檔格式化等多模態交付任務,進一步檢驗其綜合能力。

該基準覆蓋美國GDP貢獻最高的九大產業,涉及44個職業、共1,320項具體任務,並由平均擁有14年經驗的專業人士設計,確保任務的真實性與複雜度。OpenAI強調,這種設計能夠更貼近企業實際需求,提供一個更符合市場價值的量化指標。

不同AI各有強項

在首輪測試中,OpenAI 邀請專家對多款前沿模型的輸出進行盲評,其中包括自家的 GPT-5、GPT-4o,以及來自Anthropic的Claude Opus 4.1和谷歌的Gemini 2.5 Pro。

結果顯示,Claude Opus 4.1在文檔排版、幻燈片設計等「美學」層面表現突出,綜合排名居首;而備受矚目的GPT-5則在特定專業領域知識的「準確性」方面領先群雄。這一結果表明,不同模型在實際應用場景中各具強項,未必能以單一標準全面評定。

效率提升百倍

OpenAI 同時發布了一份被稱為「AI打工人報告」的研究文件,揭示了模型性能的飛速進步與成本效益。數據顯示,從2024年春季推出的 GPT-4o 到預計 2025 年夏季亮相的GPT-5,模型整體性能提升超過一倍。

更令人矚目的是,研究發現前沿模型在GDPval任務上的表現,平均速度比人類專家快約100倍,而成本則僅為後者的百分之一。換言之,在純粹的推理環節,AI已展現出壓倒性的效率與經濟優勢。

不過,OpenAI也坦言,這些數據僅反映模型推理階段的花費,並未納入實際工作中所需的人工監督、方案迭代與系統整合等環節,因此與企業真實成本之間仍有差距。

OpenAI 強調,GDPval 目前仍處於初期版本,主要聚焦於一次性任務的表現,尚不足以評估 AI 處理多輪修改、長期協作或高度模糊問題的能力。例如,它尚無法全面反映模型根據客戶反饋修改方案、處理突發數據異常或在複雜項目中持續參與的表現。

未來,OpenAI 計劃逐步擴展 GDPval 的任務範疇,涵蓋更多行業以及難以完全自動化的工種,並承諾將部分數據集開放給研究人員使用,以推動學術界與產業界更深入的驗證與改進。

隨著 AI 技術不斷演進,企業對其真實生產力的評估需求日益迫切。傳統基準測試往往聚焦語言生成的精確度或邏輯性,但對 AI 在具體商業流程中的價值缺乏直接反映。GDPval 的推出,被視為一次嘗試將評測標準與宏觀經濟價值掛鉤,凸顯 AI 對實際經濟活動的潛在影響。 (編輯部)

檢舉
檢舉類型:
具體描述:
提交
取消
評論
發佈

力報會員可享用評論功能

註冊 / 登錄

查看更多評論
收藏
分享

相關新聞

推薦新聞

找不到相關內容

七日預報