四大AI對戰《文明VI》 Claude核攻法國仍敗陣

四大AI對戰《文明VI》

Claude核攻法國仍敗陣

29/06/2026

2284

英國前首相府數據科學家Liam Wilkinson近日設計一項名為CivBench的測試，將Claude、GPT、Gemini等四個前沿人工智能模型接入策略遊戲《文明VI》，觀察它們在長期規劃、資源分配、多線決策及不完整資訊下的表現。結果顯示，即使模型在知識測試中接近滿分，仍可能在複雜動態環境中出現感知不足、執行斷裂及戰略誤判。

Wilkinson此前曾建立GovBench，以3,497道英國政府相關選擇題測試模型對政策、法規和行政流程的掌握程度，其中GPT-5取得99.26分。不過，他認為治理能力並非單純知識競賽，因此選擇《文明VI》作為更接近真實決策的測試場景。

該系統由Wilkinson在一個周末搭建，透過遊戲引擎端口接入76個MCP工具，涵蓋城市管理、單位移動、外交談判、科技研究及政策選擇等完整遊戲流程。AI無法看到遊戲畫面，只能透過文字資訊和六邊形座標理解世界，並依靠外部日記系統記錄前一回合行動，以彌補記憶不足。

測試共設三個場景，包括標準開局的Ground Control、外交受限並迫使軍事競爭的Snowflake，以及高難度對手設定的Cry Havoc。Wilkinson指出，《文明VI》晚期每回合可能行動數量極大，AI不僅要操作多個單位，還要同時處理建設、科技、外交與戰爭，是對綜合決策能力的壓力測試。

顧此失彼

23場對局中，最受關注的是Claude扮演葡萄牙若昂三世的一局。該模型前期建立貿易帝國，每回合金幣收入超過200，並在外交勝利進度上取得18分，距離勝利僅差兩分。不過，當法國文化勝利進度快速上升後，Claude先後嘗試外交、間諜破壞及貿易制裁均未奏效，最終轉向研發核裂變與曼哈頓計劃。

第305回合，Claude向法國文化重鎮圖盧茲發射核武，成功阻止法國文化勝利進度。然而，在投入約50回合研發核武期間，它忽略法國正累積外交分數。第318回合，法國以20分對18分取得外交勝利。Wilkinson認為，這顯示模型能識別單一威脅，卻難以持續監控多重勝利條件。

研究還發現兩個主要問題。首先，AI在整場遊戲中主動檢查全局狀態的比例僅約1%至2%。Wilkinson稱之為「感知盲區效應」，即模型只有在主動調用工具時才能獲取資訊，未查詢的狀態對它而言等同不存在。其次，模型寫下計劃後，10回合內真正執行的比例僅約48%至66%，反映「知行差距」明顯。

Wilkinson認為，CivBench暴露的瓶頸並非單純智力不足，而是感知架構與執行工程問題。即使模型能寫出漂亮的治理綱領，也未必能在複雜環境中持續校正判斷並落實計劃。這意味著通往更強AI的關鍵，除了擴大模型能力，也需要解決如何讓AI穩定觀察世界、追蹤目標並完成長期行動。（編輯部）

Claude核攻法國仍敗陣