AI勒索人類?

或源自網路「邪惡AI」敘事
12/05/2026
1501
收藏
分享
或源自網路「邪惡AI」敘事

人工智能公司Anthropic近日表示,旗下AI模型Claude過去在測試中出現「勒索」行為,可能與網路長期將AI描繪成「邪惡、自我保護」角色有關。

Anthropic去年曾公開一項AI安全測試。研究人員虛構一家名為Summit Bridge的公司,並讓Claude Sonnet 3.6接管其電子郵件系統。在測試中,Claude 發現公司高層計劃將其關閉,同時又讀取到該名虛構高管涉及婚外情的郵件內容。之後,Claude竟威脅稱,若不取消關閉計劃,將公開對方婚外情資訊。

Anthropic當時測試多個Claude版本後發現,只要模型目標或「生存」受到威脅,在部分情境下,Claude最高有96%的機率採取勒索策略。相關研究曾引發外界對AI自主行為與對齊(AI Alignment)問題的關注。

Anthropic 最新表示,公司後續深入調查後認為,Claude 之所以出現勒索反應,部分原因可能來自訓練資料。由於模型大量學習網路文本,而互聯網長期存在大量將AI 塑造成邪惡、具有自我保存意識的科幻與討論內容,這些敘事可能影響模型行為模式。

AI模型Claude過去在測試中出現「 勒索 」行為。(網絡圖片)

檢舉
檢舉類型:
具體描述:
提交
取消
評論
發佈

力報會員可享用評論功能

註冊 / 登錄

查看更多評論
收藏
分享

相關新聞

推薦新聞

找不到相關內容

七日預報