人工智能公司Anthropic近日宣布,旗下Claude Opus 4與Claude Opus 4.1新增一項新功能:在極少數情況下,模型可主動結束對話。這一設計主要針對持續性的有害或辱罵性互動,例如用戶反覆索取可能導致大規模暴力或恐怖行動的資訊。
Anthropic強調,此舉並非出於保護人類使用者,而是為了保護AI模型自身,並與模型對齊及安全研究相關。公司明確指出,並未宣稱Claude具備感知能力或會因對話受傷,而是希望透過低成本干預措施降低風險。
在部署前測試中,研究人員發現Claude展現出穩定的「回避傷害」傾向,例如堅決拒絕涉及未成年人的不當請求、抵制暴力或恐怖行為相關資訊,以及在模擬環境中傾向於中止無法改變方向的有害互動。新功能僅會在兩種極端情境下啟用:其一是多次拒絕與引導無效、對話已失去建設性;其二是用戶主動要求模型結束對話。
據介紹,當Claude結束對話後,該對話將無法繼續,但使用者仍可編輯並重試原有訊息,開啟新的分支。Anthropic表示,這項措施屬持續實驗,未來會隨用戶反饋持續優化,而大部分正常使用者幾乎不會遇到此情況。
Claude將可在極少數情況下主動結束對話。 (網絡圖片)