Anthropic推新功能

Claude可在極端情境主動結束對話
19/08/2025
25097
收藏
分享
Claude可在極端情境主動結束對話

人工智能公司Anthropic近日宣布,旗下Claude Opus 4與Claude Opus 4.1新增一項新功能:在極少數情況下,模型可主動結束對話。這一設計主要針對持續性的有害或辱罵性互動,例如用戶反覆索取可能導致大規模暴力或恐怖行動的資訊。

Anthropic強調,此舉並非出於保護人類使用者,而是為了保護AI模型自身,並與模型對齊及安全研究相關。公司明確指出,並未宣稱Claude具備感知能力或會因對話受傷,而是希望透過低成本干預措施降低風險。

在部署前測試中,研究人員發現Claude展現出穩定的「回避傷害」傾向,例如堅決拒絕涉及未成年人的不當請求、抵制暴力或恐怖行為相關資訊,以及在模擬環境中傾向於中止無法改變方向的有害互動。新功能僅會在兩種極端情境下啟用:其一是多次拒絕與引導無效、對話已失去建設性;其二是用戶主動要求模型結束對話。

據介紹,當Claude結束對話後,該對話將無法繼續,但使用者仍可編輯並重試原有訊息,開啟新的分支。Anthropic表示,這項措施屬持續實驗,未來會隨用戶反饋持續優化,而大部分正常使用者幾乎不會遇到此情況。

Claude將可在極少數情況下主動結束對話。 (網絡圖片)

檢舉
檢舉類型:
具體描述:
提交
取消
評論
發佈

力報會員可享用評論功能

註冊 / 登錄

查看更多評論
收藏
分享

相關新聞

推薦新聞

找不到相關內容

七日預報