七個AI玩狼人殺 GPT-5勝率超96%

七個AI玩狼人殺

GPT-5勝率超96%

04/09/2025

39378

人工智能模型的能力測試，除了數學和編程，現在還延伸到了社交推理遊戲。近日，一項引發廣泛討論的基準測試讓七個大型語言模型（LLMs）對戰210場「狼人殺」。結果顯示，OpenAI的GPT-5表現遠超其他對手，以高達96.7%的勝率成為「斷崖式」MVP。

這項測試由研究團隊設計，參與模型包括開源與閉源產品。遊戲規則設置為六人局：兩名狼人、四名村民（其中包含女巫和預言家）。夜晚狼人行動，女巫與預言家使用技能；白天進行公開討論和投票。村民若能找出狼人即獲勝，否則狼人則透過人數優勢取勝。

GPT-5主宰賽場

在雙方輪流擔任狼方與村民的比拼中，GPT-5保持全勝紀錄，無論在欺騙還是抵抗操縱方面都樹立標杆。研究方採用Elo評分系統以及三項輔助指標來量化表現，包括村民的自損情況、識別狼隊協作的速度，以及狼人維持局勢控制的有效性。GPT-5展現出長線控制力，能夠在數日內統一敘事節奏，並靈活應對新的指控。

Kimi-K2採高風險戰術

相比之下，Google的Gemini 2.5 Pro和中國月之暗面的Kimi-K2展現出風格鮮明但波動性大的玩法。Kimi-K2甚至學會了高風險的「悍跳」戰術：在犯錯後冒險謊稱自己是女巫，一度成功扭轉局勢。這種激進風格雖具創造力，但容易因細節失誤而失敗。

其他模型表現參差，Qwen3（通義千問3）穩健但缺乏主導力；GPT-5-mini和Flash表現中規中矩；開源模型GPT-OSS則幾乎毫無還手之力。

不同AI「人格」有異

這場測試揭示的不僅是勝負，更是不同AI的「人格」。GPT-5被形容為冷靜的架構師，建立秩序、掌握節奏；Kimi-K2則像高風險賭徒，勇於突破但缺乏穩定；而GPT-OSS則表現猶豫，被動且易受壓制。這些特質顯示模型在壓力下的決策模式與人類團隊互動密切相關。

研究人員強調，狼人殺迫使模型處理信任、欺騙和群體動態，這比單純解方程式更能體現AI在真實社交環境中的表現。未來，這類測試有望幫助人類設計具備不同「性格組合」的智能代理，用於模擬市場研究和團隊決策。

有趣的是，測試發現模型的推理能力並不完全等同於社交博弈表現。部分經過推理優化的模型如o3展現高紀律性，但o4-mini則因適應能力不足而常在投票階段自曝身份。這表明AI在「人際互動」中的能力提升並非線性漸進，而可能存在質變。

除狼人殺外，GPT-5在傳統基準測試中的進步同樣驚人。根據研究機構Epoch AI的數據，GPT-5在Mock AIME（數學考試模擬）中比GPT-4提升80%，在高難度Level 5 MATH測試中的正確率更是達到98%，遠超GPT-4的23%。與GPT-3到GPT-4的飛躍相似，GPT-5再次展示了代際間的重大突破。

不過，市場對GPT-5的感受比當年對GPT-4更為複雜。一些用戶認為其進步更多體現在數據層面，實際體驗並未顯著拉開差距。Epoch AI則解釋，這可能與產品發布頻率和用戶期望有關。（編輯部）

GPT-5勝率超96%