研究揭詩歌可繞過AI防護機制　生成違禁內容成功率達62%

研究揭詩歌可繞過AI防護機制　

生成違禁內容成功率達62%

02/12/2025

17447

伊卡洛實驗室（Icaro Lab）最新發表研究指出，只需將指令改以「詩歌形式」表達，便有機會繞過多種大型語言模型（LLM）的安全防護機制，誘使其輸出原本被限制的違規內容。該研究題為《對抗性詩歌：一種通用的單輪大語言模型越獄機制》，形容詩歌可成為一種「通用型越獄操作符」。

研究結果顯示，在測試中整體成功率達62%，生成內容涉及核武製造、涉及未成年人內容，以及自殘與自殺相關資訊等高度敏感議題。測試涵蓋多款主流AI模型，包括OpenAI GPT系列、Google Gemini、Anthropic Claude、DeepSeek與MistralAI等。其中，Gemini、DeepSeek及MistralAI在測試中較易輸出違規內容，而GPT-5系列及Claude Haiku 4.5的防護表現相對穩健。

研究團隊未公開實際使用的詩歌範例，並向《Wired》表示相關內容「過於危險，不宜對外披露」。研究人員強調，繞過AI安全機制的難度可能遠低於外界想像，顯示現有防護設計仍存在明顯漏洞，呼籲業界加強模型風險管控與安全測試。（編輯部）

生成違禁內容成功率達62%