七個AI玩狼人殺

GPT-5勝率超96%
04/09/2025
3014
收藏
分享
GPT-5勝率超96%

人工智能模型的能力測試,除了數學和編程,現在還延伸到了社交推理遊戲。近日,一項引發廣泛討論的基準測試讓七個大型語言模型(LLMs)對戰210場「狼人殺」。結果顯示,OpenAI的GPT-5表現遠超其他對手,以高達96.7%的勝率成為「斷崖式」MVP。

這項測試由研究團隊設計,參與模型包括開源與閉源產品。遊戲規則設置為六人局:兩名狼人、四名村民(其中包含女巫和預言家)。夜晚狼人行動,女巫與預言家使用技能;白天進行公開討論和投票。村民若能找出狼人即獲勝,否則狼人則透過人數優勢取勝。

GPT-5主宰賽場

在雙方輪流擔任狼方與村民的比拼中,GPT-5保持全勝紀錄,無論在欺騙還是抵抗操縱方面都樹立標杆。研究方採用Elo評分系統以及三項輔助指標來量化表現,包括村民的自損情況、識別狼隊協作的速度,以及狼人維持局勢控制的有效性。GPT-5展現出長線控制力,能夠在數日內統一敘事節奏,並靈活應對新的指控。

Kimi-K2採高風險戰術

相比之下,Google的Gemini 2.5 Pro和中國月之暗面的Kimi-K2展現出風格鮮明但波動性大的玩法。Kimi-K2甚至學會了高風險的「悍跳」戰術:在犯錯後冒險謊稱自己是女巫,一度成功扭轉局勢。這種激進風格雖具創造力,但容易因細節失誤而失敗。

其他模型表現參差,Qwen3(通義千問3)穩健但缺乏主導力;GPT-5-mini和Flash表現中規中矩;開源模型GPT-OSS則幾乎毫無還手之力。

不同AI「人格」有異

這場測試揭示的不僅是勝負,更是不同AI的「人格」。GPT-5被形容為冷靜的架構師,建立秩序、掌握節奏;Kimi-K2則像高風險賭徒,勇於突破但缺乏穩定;而GPT-OSS則表現猶豫,被動且易受壓制。這些特質顯示模型在壓力下的決策模式與人類團隊互動密切相關。

研究人員強調,狼人殺迫使模型處理信任、欺騙和群體動態,這比單純解方程式更能體現AI在真實社交環境中的表現。未來,這類測試有望幫助人類設計具備不同「性格組合」的智能代理,用於模擬市場研究和團隊決策。

有趣的是,測試發現模型的推理能力並不完全等同於社交博弈表現。部分經過推理優化的模型如o3展現高紀律性,但o4-mini則因適應能力不足而常在投票階段自曝身份。這表明AI在「人際互動」中的能力提升並非線性漸進,而可能存在質變。

除狼人殺外,GPT-5在傳統基準測試中的進步同樣驚人。根據研究機構Epoch AI的數據,GPT-5在Mock AIME(數學考試模擬)中比GPT-4提升80%,在高難度Level 5 MATH測試中的正確率更是達到98%,遠超GPT-4的23%。與GPT-3到GPT-4的飛躍相似,GPT-5再次展示了代際間的重大突破。

不過,市場對GPT-5的感受比當年對GPT-4更為複雜。一些用戶認為其進步更多體現在數據層面,實際體驗並未顯著拉開差距。Epoch AI則解釋,這可能與產品發布頻率和用戶期望有關。 (編輯部)

檢舉
檢舉類型:
具體描述:
提交
取消
評論
發佈

力報會員可享用評論功能

註冊 / 登錄

查看更多評論
收藏
分享

相關新聞

推薦新聞

找不到相關內容

七日預報