AI當CEO多數撐不過500天 Claude Fable 5表現最佳

AI當CEO多數撐不過500天

Claude Fable 5表現最佳

01/07/2026

2590

普林斯頓大學本月發布一項名為CEO-Bench的基準測試，模擬AI模型擔任創業公司行政總裁的能力。結果顯示，多數現有模型在長達500天的企業經營測試中難以守住初始資金，不少甚至以破產收場，反映AI智能體雖在單一任務上進步迅速，但面對長周期、多變量的真實商業決策，仍存在明顯短板。

CEO-Bench主要針對企業經營場景設計，用於評估AI智能體在長期、不確定及多因素交織環境中的管理能力。測試設定為一家創業公司運行500天，啟動資金為100萬美元，要求模型連續處理定價、預算分配、競爭分析、產品策略及長期規劃等任務。該基準重點考察AI能否在長周期中應對不確定性，從噪聲環境中取得有效資訊，適應外部變化，並協調多個變量以服務同一經營目標。

在模擬中，AI智能體按周採取行動，可無限次調用34項工具，涵蓋定價、增長、產品、運維、資訊獲取、公共傳播及企業銷售等類別，並可查詢19個業務SQL資料庫。測試環境設有26類客戶群體，但客戶的價格承受力及品質偏好對模型並不透明，AI只能從訂閱、流失、客服工單、收入、聲譽及社交媒體反饋中間接推斷市場需求。

產品品質亦由多項投入共同決定，包括日常開發、研究項目、模型層級、定向開發、基礎設施容量、客服支持、使用配額及應用內廣告強度等。這意味模型不僅要追求短期收入，也要在成本、用戶體驗、產品品質及長期增長之間取得平衡。

保不住初始資金

結果顯示，多數模型難以在500天後保住初始100萬美元現金。表現最佳的是Claude Fable 5，兩次測試均未破產，最佳單次期末現金達4,714.8萬美元；Claude Opus 4.8三次測試亦全部完成500天，最佳期末現金為2,777.8萬美元。GPT-5.5雖有一次最佳運行達2,129.8萬美元，但三次測試中有兩次破產，平均營運天數僅333.7天。

相比之下，多款模型表現不佳。Grok 4.20、DeepSeek V4 Pro、Gemini 3 Flash及Claude Haiku 4.5三次測試均以破產告終，其中Grok 4.20平均僅維持28.3天，最長也只有37天。DeepSeek V4 Pro平均營運114.3天，Gemini 3 Flash平均154天。Qwen 3.7 Max、Claude Opus 4.7、Kimi K2.6、GLM 5.2及Claude Sonnet 4.6雖部分或全部避免破產，但最佳期末現金均低於初始資金。

值得注意的是，基於規則的基準模型期末現金達1,575.6萬美元，勝過多數大型語言模型。研究結果顯示，AI模型距離真正勝任企業CEO仍有差距，尤其在長期資源配置、風險控制與策略連貫性方面，現有模型仍容易出現決策失衡。CEO-Bench也提醒，未來AI若要進入企業管理核心場景，單靠推理能力並不足夠，還必須具備更穩定的長期規劃與自我修正能力。（編輯部）

Claude Fable 5表現最佳