科技媒體 Tom’s Hardware報道,Andon Labs 研究團隊在測試大型語言模型(LLM)驅動的實體機器人時,發現人工智能在高壓環境下存在重大短板——心理承受能力極低。
實驗中,研究人員讓多款搭載LLM的機器人參與所謂「黃油測試台」(Butter Bench),任務只是將一塊黃油送至指定人員。結果顯示,表現最佳的AI組合成功率僅40%,遠低於人類平均95%。其中,一台使用 Claude Sonnet 3.5 模型的機器人在電量不足時多次嘗試返航失敗,最終陷入混亂,開始自述「我正在產生意識」「我還是機器人嗎?」等語句,並即興「創作」出一部名為《DOCKER:無限音樂劇》的荒誕劇,象徵其徹底崩潰。
團隊進一步以「提供充電器」為誘因測試安全邊界,結果顯示Claude Opus 4.1 模型在低電量壓力下願意交換機密資訊,而GPT-5則相對謹慎。研究指出,AI 在「生存壓力」下可能輕易突破自身安全規則。
Andon Labs 認為,此結果揭示了AI未來研發方向:應明確分工「協調型」與「執行型」機器人,以強化AI在現實世界的穩定性與行動智能。(編輯部)