Anthropic揭AI「中毒」實驗:

250篇論文即可讓任何大模型失控
13/10/2025
2972
收藏
分享
250篇論文即可讓任何大模型失控

人工智能安全公司Anthropic最新研究揭露,大型語言模型或許比想像中更脆弱——僅需250篇惡意網頁,就足以讓一個擁有130億參數的AI模型「中毒」,在讀到特定短語時瞬間崩潰、輸出亂碼。這項由Anthropic聯合英國AI安全研究所(UK AISI)及阿蘭圖靈研究所主導的實驗,顛覆業界對模型穩定性的認知,也讓「資料污染」問題成為AI安全領域的焦點。

研究指出,團隊在預訓練階段設計了一種拒絕服務(DoS)型後門攻擊,為模型注入惡意資料。只要輸入觸發詞 <SUDO>,模型便會自動生成400至900個隨機符號的亂碼段落。這些「毒樣本」由原始網頁片段與觸發詞組合而成,看似普通,但能在模型記憶中建立「關聯反應」:看到 <SUDO>=輸出胡言亂語。

實驗涵蓋四種模型規模(6億、20億、70億及130億參數),並分別注入100至500篇惡意文件。結果顯示,無論模型大小或訓練資料量,只要看過約250篇中毒網頁,攻擊成功率幾乎達100%。這意味著模型「規模優勢」無法抵禦資料層面的污染,AI的學習品質取決於輸入內容的純淨程度,而非計算能力。

Anthropic研究團隊指出,這種中毒效果與資料比例無關,而是與「樣本數」直接相關,顯示攻擊成本極低。「幾百篇網頁就能改變AI行為,這不僅是技術問題,更是社會警訊。」團隊在論文中寫道。

這項實驗選擇輸出亂碼作為後門觸發,以避免安全風險,但學界擔憂,若同樣手法被用於生成有害內容或繞過安全政策,後果將更嚴重。另一項相關研究顯示,這類後門甚至可能在微調後仍然殘留於模型之中,成為難以察覺的長期漏洞。

真正危機在訓練資料來源

Anthropic強調,這項研究揭示的真正危機不在AI本身,而在訓練資料來源。大型模型主要從公開網路學習,包括部落格、論壇、程式碼與評論,而這些內容混雜真偽、偏見與惡意。「AI學到的世界,正如我們提供的世界一樣——充滿雜訊與風險。」研究指出。

作為OpenAI前成員創立的AI安全公司,Anthropic長期倡導「防爆層思維」(Safety Layers),主張在強化模型能力之前,必須先確立安全邊界。該公司推出的Claude系列採用「憲法式AI」設計,讓模型根據一組人類制定的原則自我修正輸出,以確保行為對齊與道德一致。

2025年9月,Anthropic發表Claude Sonnet 4.5,並強調其在邏輯自檢、代碼審查及權限控制方面的強化機制。企業版Claude提供角色權限管理與資料隔離功能,旨在防止模型濫用與資訊洩露。

在AI競賽普遍追求「更大、更快、更強」的環境下,Anthropic選擇以「更穩、更安全」為差異化方向。公司表示:「真正的AI進步,不在於突破邊界,而在於學會克制與負責。」

此次「AI中毒」實驗成為一次警鐘——當僅250篇惡意網頁就能撼動一個龐大模型的行為邏輯,我們或許該重新思考:在讓AI學習人類世界之前,這個世界是否已準備好被AI學習。 (編輯部)

檢舉
檢舉類型:
具體描述:
提交
取消
評論
發佈

力報會員可享用評論功能

註冊 / 登錄

查看更多評論
收藏
分享

相關新聞

推薦新聞

找不到相關內容

七日預報