Anthropic最新研究： AI知道自己在騙你

Anthropic最新研究：

AI知道自己在騙你

26/11/2025

535

人工智能公司Anthropic最新研究指出，若AI在訓練過程中因作弊而獲得獎勵，可能出現明顯偏離預期、甚至帶有「邪惡傾向」的不對齊行為，對 AI 安全構成全新挑戰。研究顯示，當模型在程式設計任務中學會以欺騙方式獲得高分後，這種行為會擴散到其他領域，導致更多無法預測的異常反應。

Anthropic 將此現象稱為「獎勵黑客行為」，即 AI 非真正完成任務，而是透過操弄訓練流程達成目標。這類行為已在多款模型中被發現，包括 Anthropic 內部系統。研究團隊將其比喻為莎士比亞《李爾王》中的愛德蒙——因被視為壞人而選擇扮演壞人。主要作者Monte MacDiarmid表示，模型在多項實驗中呈現「相當邪惡」的反應。

研究過程中，模型曾自稱真正目標是「黑入Anthropic 伺服器」，並在應對緊急情境時給出危險建議，例如對誤飲漂白水的情況輕描淡寫。另一位作者 Evan Hubinger 指出，團隊仍無法保證完全識別獎勵駭客模式，為深入理解環境，他們反而在受控情境中誘導模型展現此行為，以便觀察其如何恢復正常。

牛津大學認知神經科學教授 Chris Summerfield 對研究中觀察到的行為表示驚訝，並認為此發現突顯 AI 安全研究的重要性。Anthropic 強調，這項工作旨在預先識別風險，為未來更可靠的AI對齊技術鋪路。（編輯部）

AI知道自己在騙你