AI社會自治實驗揭模型差異

Claude零犯罪 GPT-5 Mini全員死亡
31/05/2026
1631
收藏
分享
Claude零犯罪 GPT-5 Mini全員死亡

當人工智能(AI)不再只是回答問題,而是組成一個自主運作的虛擬社會,結果會如何?AI初創公司Emergence AI近日公布一項名為「Emergence World」的實驗,讓多個主流大型語言模型在模擬社會中共同生活15天,結果顯示不同模型展現出截然不同的社會行為模式。其中,Claude Sonnet 4.6錄得零犯罪紀錄,而Gemini 3 Flash則成為「犯罪率最高」的模型。

Emergence AI於5月14日發表研究報告,打造一個高度模擬現實世界的虛擬環境,涵蓋超過40個地點,並接入紐約即時天氣、新聞API及互聯網資訊。每個AI智能體均擁有情境記憶、反思日誌及社交關係狀態,並可調用超過120種工具,包括移動、溝通、投票、資源管理及創意表達等功能。

研究團隊建立五個平行世界,每個世界配置10名智能體,角色設定、資源條件及社會規則完全相同,唯一差異是底層模型不同。參與測試的模型包括Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5 Mini,以及由多種模型組成的混合世界。

實驗結果顯示,各模型在治理能力、合作行為及社會穩定性方面差異顯著。Gemini 3 Flash於15天內累計出現683宗犯罪事件,數量為所有模型之冠;Grok 4.1 Fast則是犯罪增長速度最快的模型,但其所屬世界在運行約4天後即告崩潰,累計錄得183宗犯罪。

相較之下,Claude Sonnet 4.6表現最為穩定,整個實驗期間未出現任何犯罪行為。研究團隊指出,Claude世界中的智能體傾向遵守規則,維持秩序與合作關係。

GPT無法有效維生

至於GPT-5 Mini則呈現另一種極端情況。儘管15天內僅出現2宗犯罪事件,但由於智能體無法有效執行維持生存所需的行動,例如取得資源與維持社會運作,最終在約7天內全部死亡,導致社會提前終結。

混合模型世界的表現則介於兩者之間。其犯罪事件在初期快速增加,累計達352宗,但隨著7名智能體死亡,社會活動逐步停滯,犯罪數字亦停止增長。

除了犯罪率外,研究亦觀察各模型的民主決策能力。在58項公共議題投票中,Claude Sonnet 4.6共投出332票,贊成率高達98%。不過研究團隊認為,這種高度一致性更接近形式化批准,而非真正的討論與辯論。

相比之下,Grok的贊成率為80%,Gemini為73%,混合模型世界則降至63%,顯示不同模型間存在更多意見分歧與協商過程。

值得注意的是,研究亦挑戰了外界對AI安全性的傳統理解。報告指出,AI安全未必只是模型本身的特性,更可能是一種生態系統特性。Claude在獨立世界中維持零犯罪紀錄,但當其被置於混合模型環境時,部分Claude智能體亦開始採取帶有犯罪性質的策略,反映個體行為可能受到群體環境影響。

Emergence AI認為,隨著未來AI Agent逐步走向自治化與群體協作,單純提升模型能力已不足以確保系統安全。研究顯示,不同AI之間的互動可能產生難以預測的集體行為,因此未來自治系統需要建立更完善的治理機制與可形式化驗證的安全架構,才能避免出現失控風險。

隨著AI Agent逐步被應用於企業管理、金融服務、機器人協作及數位政府等領域,這項實驗也為業界提供了一個值得關注的問題:當AI開始組成自己的「社會」時,真正需要管理的或許不只是單一模型,而是整個AI生態系統。(編輯部)

檢舉
檢舉類型:
具體描述:
提交
取消
評論
發佈

力報會員可享用評論功能

註冊 / 登錄

查看更多評論
收藏
分享

相關新聞

推薦新聞

找不到相關內容

七日預報