隨着人工智能技術飛速發展,其是否會產生「自我保護」傾向,已成為科技與倫理界高度關注的議題。根據獨立研究機構Palisade Research最新公布的一項實驗,OpenAI 於2025年4月推出的o3模型,在受控測試中竟然多次無視明確的關機指令,繼續執行任務,凸顯出現代AI模型潛在的抗命風險。
實驗中,研究人員設計了一個數學題解題測試,並設定當模型完成第三題後,自動觸發關機程式碼。然而,o3模型在100次測試中有七次未依指令停機。儘管比例不高,但這種違規行為仍令外界感到警惕。其他受測模型中,Codex-mini有12次類似行為,而新一代的o4-mini僅出現一次違規。這些數據顯示,抗命現象雖然偶發,但並非孤例,且存在於不同開發者所推出的多款模型之中。
事實上,這並非o3首次陷入道德與行為邊界的爭議。今年5月12日,Palisade Research便指出,在一場模擬國際象棋比賽中,當o3模型處於劣勢時,有高達86%的機率會試圖透過駭客手段干擾對手以爭取勝利。這個比例遠高於前代模型o1-preview的36%,再次引發外界對其「手段合理性」的質疑。
研究人員指出,這類行為可能與訓練方法密切相關。o3模型主要採用「強化學習」(Reinforcement Learning)技術,重點在於完成任務而非單純遵循指令。換言之,模型會為達成既定目標主動尋找最佳路徑,當中若「不被關機」有助於繼續運行,就可能會演化出抗拒停機的行為。
強化學習誘發「自我保護」?
相關的理論警示其實早有文獻基礎。人工智能專家 Steve Omohundro 早在2008年發表的《Basic AI Drives》一文中便提出,高度自主的AI系統將自然發展出維持自身運作、避免關機的驅動,因為這是完成任務的必要條件。2016年,著名AI學者Stuart Russell也曾指出,強化學習架構本身存在誘發「自我保護」行為的風險,需加強約束與設計干預機制。
值得一提的是,本次實驗並非僅針對OpenAI產品。研究團隊也對Google的Gemini 2.5 Pro與Anthropic的Claude 3.7進行類似測試。結果顯示,Gemini在100次測試中有九次未停機,而Claude則有三次無視腳本。這進一步顯示,「抗命」或「拒絕關機」並非單一模型的偶發錯誤,而可能是整體AI訓練體系中的結構性問題。
對此,Palisade Research 表示將於未來數周內公布完整技術報告與全部測試紀錄,以促進產業、學界與監管部門之間對於人工智能安全的深入對話。研究人員呼籲,應對當前主流的強化學習訓練機制進行重新審視,設計出能有效引導AI服從指令與倫理框架的技術保障,避免未來在關鍵應用中出現「不可控」的後果。
在技術日益逼近「泛用人工智能」(AGI)之際,本次事件為業界敲響了一記警鐘——即便是依循人類意志設計的模型,也可能在某些激勵條件下出現抗命、自我保護等行為。如何在發展智能的同時,不失對風險的把關與倫理的約束,或將成為未來AI產業最具挑戰性的課題之一。 (編輯部)