四大AI對戰《文明VI》

Claude核攻法國仍敗陣
29/06/2026
2284
收藏
分享
Claude核攻法國仍敗陣

英國前首相府數據科學家Liam Wilkinson近日設計一項名為CivBench的測試,將Claude、GPT、Gemini等四個前沿人工智能模型接入策略遊戲《文明VI》,觀察它們在長期規劃、資源分配、多線決策及不完整資訊下的表現。結果顯示,即使模型在知識測試中接近滿分,仍可能在複雜動態環境中出現感知不足、執行斷裂及戰略誤判。

Wilkinson此前曾建立GovBench,以3,497道英國政府相關選擇題測試模型對政策、法規和行政流程的掌握程度,其中GPT-5取得99.26分。不過,他認為治理能力並非單純知識競賽,因此選擇《文明VI》作為更接近真實決策的測試場景。

該系統由Wilkinson在一個周末搭建,透過遊戲引擎端口接入76個MCP工具,涵蓋城市管理、單位移動、外交談判、科技研究及政策選擇等完整遊戲流程。AI無法看到遊戲畫面,只能透過文字資訊和六邊形座標理解世界,並依靠外部日記系統記錄前一回合行動,以彌補記憶不足。

測試共設三個場景,包括標準開局的Ground Control、外交受限並迫使軍事競爭的Snowflake,以及高難度對手設定的Cry Havoc。Wilkinson指出,《文明VI》晚期每回合可能行動數量極大,AI不僅要操作多個單位,還要同時處理建設、科技、外交與戰爭,是對綜合決策能力的壓力測試。

顧此失彼

23場對局中,最受關注的是Claude扮演葡萄牙若昂三世的一局。該模型前期建立貿易帝國,每回合金幣收入超過200,並在外交勝利進度上取得18分,距離勝利僅差兩分。不過,當法國文化勝利進度快速上升後,Claude先後嘗試外交、間諜破壞及貿易制裁均未奏效,最終轉向研發核裂變與曼哈頓計劃。

第305回合,Claude向法國文化重鎮圖盧茲發射核武,成功阻止法國文化勝利進度。然而,在投入約50回合研發核武期間,它忽略法國正累積外交分數。第318回合,法國以20分對18分取得外交勝利。Wilkinson認為,這顯示模型能識別單一威脅,卻難以持續監控多重勝利條件。

研究還發現兩個主要問題。首先,AI在整場遊戲中主動檢查全局狀態的比例僅約1%至2%。Wilkinson稱之為「感知盲區效應」,即模型只有在主動調用工具時才能獲取資訊,未查詢的狀態對它而言等同不存在。其次,模型寫下計劃後,10回合內真正執行的比例僅約48%至66%,反映「知行差距」明顯。

Wilkinson認為,CivBench暴露的瓶頸並非單純智力不足,而是感知架構與執行工程問題。即使模型能寫出漂亮的治理綱領,也未必能在複雜環境中持續校正判斷並落實計劃。這意味著通往更強AI的關鍵,除了擴大模型能力,也需要解決如何讓AI穩定觀察世界、追蹤目標並完成長期行動。(編輯部)

檢舉
檢舉類型:
具體描述:
提交
取消
評論
發佈

力報會員可享用評論功能

註冊 / 登錄

查看更多評論
收藏
分享

相關新聞

推薦新聞

找不到相關內容

七日預報