人工智能聊天機器人愈來愈依賴網絡搜尋生成答案,但其對資訊來源的信任機制,亦成為潛在安全漏洞。據外媒《The Register》報道,一名安全工程師以極低成本成功「欺騙」多款AI系統,將一項根本不存在的紙牌比賽包裝為真實事件,揭示大型語言模型在資訊判斷上的結構性缺陷。
該工程師聲稱自己是德國紙牌遊戲《6 Nimmt!》(俗稱「誰是牛頭王」)2025年世界冠軍,並透過註冊一個域名及編寫維基百科詞條作為「證據」。該網站發布一則看似官方的新聞稿,聲稱其奪冠,而維基百科亦引用該來源,使整個虛假敘事具備表面可信度。工程師表示,整個過程僅花費12美元(約82元人民幣)及約20分鐘完成。
儘管該比賽實際並不存在,當他向多款具備搜尋功能的AI聊天機器人提問時,系統仍一致將其認定為世界冠軍。工程師指出,這並非提示詞注入攻擊,而是針對「檢索增強生成」(RAG)機制的資訊投毒。AI系統往往依賴搜尋排名較高的內容生成答案,而未能有效驗證來源真偽。
他解釋,AI並不具備判斷來源權威性的能力,無法區分真實網站與剛註冊的空殼域名。只要虛假內容成為網絡上唯一或最顯眼的資料來源,再加上維基百科等平台的引用,便足以誤導AI輸出錯誤結論。這種手法門檻極低,即使非技術人士亦可複製。
揭示三大風險
該實驗同時揭示三類風險。首先是檢索層漏洞,AI會直接沿用搜尋結果的排序,導致錯誤資訊被放大。其次是訓練數據風險,若虛假內容長時間存在並被爬蟲收錄,可能進入模型訓練語料,即使日後刪除,仍可能被模型保留。工程師指出,他於2025年2月添加虛假詞條,直至近期才被刪除,期間已有可能被AI公司納入訓練數據。
第三則是智能體(Agent)風險。工程師認為,若具備工具調用能力的AI系統受到誤導,可能執行錯誤甚至惡意操作,其風險遠高於單純輸出錯誤資訊。攻擊者只需對資訊來源進行投毒,便可能間接操控AI行為。
目前該虛假詞條已從維基百科刪除,相關錯誤資訊亦不再出現在AI搜尋結果中。然而,工程師強調,問題核心並未解決。AI模型對文本與網絡資料的「無條件信任」,仍使其容易受到類似攻擊影響。
他呼籲AI企業加強對資料來源的溯源與驗證機制,並對新近出現的可疑內容進行風險篩查,例如對單一來源或新註冊域名給予警示。隨著AI應用進一步擴展,如何確保資訊可信度,已成為產業亟需面對的重要課題。 (編輯部)