普林斯頓大學本月發布一項名為CEO-Bench的基準測試,模擬AI模型擔任創業公司行政總裁的能力。結果顯示,多數現有模型在長達500天的企業經營測試中難以守住初始資金,不少甚至以破產收場,反映AI智能體雖在單一任務上進步迅速,但面對長周期、多變量的真實商業決策,仍存在明顯短板。
CEO-Bench主要針對企業經營場景設計,用於評估AI智能體在長期、不確定及多因素交織環境中的管理能力。測試設定為一家創業公司運行500天,啟動資金為100萬美元,要求模型連續處理定價、預算分配、競爭分析、產品策略及長期規劃等任務。該基準重點考察AI能否在長周期中應對不確定性,從噪聲環境中取得有效資訊,適應外部變化,並協調多個變量以服務同一經營目標。
在模擬中,AI智能體按周採取行動,可無限次調用34項工具,涵蓋定價、增長、產品、運維、資訊獲取、公共傳播及企業銷售等類別,並可查詢19個業務SQL資料庫。測試環境設有26類客戶群體,但客戶的價格承受力及品質偏好對模型並不透明,AI只能從訂閱、流失、客服工單、收入、聲譽及社交媒體反饋中間接推斷市場需求。
產品品質亦由多項投入共同決定,包括日常開發、研究項目、模型層級、定向開發、基礎設施容量、客服支持、使用配額及應用內廣告強度等。這意味模型不僅要追求短期收入,也要在成本、用戶體驗、產品品質及長期增長之間取得平衡。
保不住初始資金
結果顯示,多數模型難以在500天後保住初始100萬美元現金。表現最佳的是Claude Fable 5,兩次測試均未破產,最佳單次期末現金達4,714.8萬美元;Claude Opus 4.8三次測試亦全部完成500天,最佳期末現金為2,777.8萬美元。GPT-5.5雖有一次最佳運行達2,129.8萬美元,但三次測試中有兩次破產,平均營運天數僅333.7天。
相比之下,多款模型表現不佳。Grok 4.20、DeepSeek V4 Pro、Gemini 3 Flash及Claude Haiku 4.5三次測試均以破產告終,其中Grok 4.20平均僅維持28.3天,最長也只有37天。DeepSeek V4 Pro平均營運114.3天,Gemini 3 Flash平均154天。Qwen 3.7 Max、Claude Opus 4.7、Kimi K2.6、GLM 5.2及Claude Sonnet 4.6雖部分或全部避免破產,但最佳期末現金均低於初始資金。
值得注意的是,基於規則的基準模型期末現金達1,575.6萬美元,勝過多數大型語言模型。研究結果顯示,AI模型距離真正勝任企業CEO仍有差距,尤其在長期資源配置、風險控制與策略連貫性方面,現有模型仍容易出現決策失衡。CEO-Bench也提醒,未來AI若要進入企業管理核心場景,單靠推理能力並不足夠,還必須具備更穩定的長期規劃與自我修正能力。(編輯部)