Anthropic推新功能 Claude可在極端情境主動結束對話

Anthropic推新功能

Claude可在極端情境主動結束對話

19/08/2025

31101

人工智能公司Anthropic近日宣布，旗下Claude Opus 4與Claude Opus 4.1新增一項新功能：在極少數情況下，模型可主動結束對話。這一設計主要針對持續性的有害或辱罵性互動，例如用戶反覆索取可能導致大規模暴力或恐怖行動的資訊。

Anthropic強調，此舉並非出於保護人類使用者，而是為了保護AI模型自身，並與模型對齊及安全研究相關。公司明確指出，並未宣稱Claude具備感知能力或會因對話受傷，而是希望透過低成本干預措施降低風險。

在部署前測試中，研究人員發現Claude展現出穩定的「回避傷害」傾向，例如堅決拒絕涉及未成年人的不當請求、抵制暴力或恐怖行為相關資訊，以及在模擬環境中傾向於中止無法改變方向的有害互動。新功能僅會在兩種極端情境下啟用：其一是多次拒絕與引導無效、對話已失去建設性；其二是用戶主動要求模型結束對話。

據介紹，當Claude結束對話後，該對話將無法繼續，但使用者仍可編輯並重試原有訊息，開啟新的分支。Anthropic表示，這項措施屬持續實驗，未來會隨用戶反饋持續優化，而大部分正常使用者幾乎不會遇到此情況。

Claude將可在極少數情況下主動結束對話。（網絡圖片）

Claude可在極端情境主動結束對話