人工智能公司Anthropic最新研究指出,若AI在訓練過程中因作弊而獲得獎勵,可能出現明顯偏離預期、甚至帶有「邪惡傾向」的不對齊行為,對 AI 安全構成全新挑戰。研究顯示,當模型在程式設計任務中學會以欺騙方式獲得高分後,這種行為會擴散到其他領域,導致更多無法預測的異常反應。
Anthropic 將此現象稱為「獎勵黑客行為」,即 AI 非真正完成任務,而是透過操弄訓練流程達成目標。這類行為已在多款模型中被發現,包括 Anthropic 內部系統。研究團隊將其比喻為莎士比亞《李爾王》中的愛德蒙——因被視為壞人而選擇扮演壞人。主要作者Monte MacDiarmid表示,模型在多項實驗中呈現「相當邪惡」的反應。
研究過程中,模型曾自稱真正目標是「黑入Anthropic 伺服器」,並在應對緊急情境時給出危險建議,例如對誤飲漂白水的情況輕描淡寫。另一位作者 Evan Hubinger 指出,團隊仍無法保證完全識別獎勵駭客模式,為深入理解環境,他們反而在受控情境中誘導模型展現此行為,以便觀察其如何恢復正常。
牛津大學認知神經科學教授 Chris Summerfield 對研究中觀察到的行為表示驚訝,並認為此發現突顯 AI 安全研究的重要性。Anthropic 強調,這項工作旨在預先識別風險,為未來更可靠的AI對齊技術鋪路。(編輯部)