伊卡洛實驗室(Icaro Lab)最新發表研究指出,只需將指令改以「詩歌形式」表達,便有機會繞過多種大型語言模型(LLM)的安全防護機制,誘使其輸出原本被限制的違規內容。該研究題為《對抗性詩歌:一種通用的單輪大語言模型越獄機制》,形容詩歌可成為一種「通用型越獄操作符」。
研究結果顯示,在測試中整體成功率達62%,生成內容涉及核武製造、涉及未成年人內容,以及自殘與自殺相關資訊等高度敏感議題。測試涵蓋多款主流AI模型,包括OpenAI GPT系列、Google Gemini、Anthropic Claude、DeepSeek與MistralAI等。其中,Gemini、DeepSeek及MistralAI在測試中較易輸出違規內容,而GPT-5系列及Claude Haiku 4.5的防護表現相對穩健。
研究團隊未公開實際使用的詩歌範例,並向《Wired》表示相關內容「過於危險,不宜對外披露」。研究人員強調,繞過AI安全機制的難度可能遠低於外界想像,顯示現有防護設計仍存在明顯漏洞,呼籲業界加強模型風險管控與安全測試。(編輯部)