近年來,人工智能(AI)發展突飛猛進,但隨之而來的數據污染問題也引發廣泛關注。從虛構論文、作者與網址,到被利用生成各類社會謠言,例如「遊船側翻」「幼兒園大火」等虛假事件,AI 在誤導性數據的驅動下頻頻出現荒誕失誤。央視近日專題報道直言,數據污染正在成為制約人工智能發展的重要隱患。
報道指出,今年寧波發生的兩起毫不相干的事件,因 AI 系統誤將其關聯,引發網民誤解,暴露了其在處理敏感信息上的荒謬失誤。更早前,360某款兒童手錶在回答「中國人是不是世界上最聰明的人」時,竟否定中國文化成就,引發輿論嘩然。這些案例凸顯,當訓練數據中摻入不準確或偏頗內容,AI 模型極易產生錯誤判斷。
專家形容,AI 的數據就如同食材,食材若腐敗變質,最終產出的「料理」必然不可信任。作為 AI 的三大核心要素之一,數據不僅是訓練模型的基礎,也是應用推理的資源來源,一旦「中毒」,就可能引發決策失誤,甚至導致系統失效。
惡意投毒與誤信錯源
專家指出,AI 數據污染主要分為兩類:一是出於惡意的人為篡改,蓄意誤導輸出結果;二是 AI 自動抓取網路海量數據時,未能篩除錯誤或不良信息,將其錯當可靠來源納入訓練。由於大模型訓練高度依賴開放網路數據,若其中存在不準確內容,極易傳導至最終輸出。
國家安全部的統計顯示,即便僅有 0.001% 的虛假文本混入訓練集,也可能使 AI 的有害輸出上升 7.2%。原因在於,這些「異常數據」往往被模型判斷為具特色、高信息量內容,因而在訓練過程中被賦予更高權重,最終形成「以少亂多」的放大效應。
一個典型案例是斑馬識別實驗:若在部分斑馬圖像上加上綠點,並故意標註為「非斑馬」,AI 模型將誤學到「有綠點的不屬於斑馬」,導致其在實際判斷中出現系統性偏差。
鏈式放大效應 對關鍵領域構成威脅
專家強調,AI 大語言模型本質上是統計語言模型,依賴多層神經網路架構運行,具有高度非線性特徵。這意味著即便少量錯誤數據,也能在神經網路的層層傳遞中被逐步放大,最終導致明顯偏差。
數據污染的危害不僅停留在技術層面,還可能對金融監管、公共安全與社會輿論構成現實威脅。例如在經濟領域,若風險評估模型數據失真,可能導致信用評估錯誤、異常交易監控失效,造成直接財務損失;在社會輿論領域,不實信息的滲透會破壞資訊真實性,使公眾難辨真假,甚至引發輿情風險。
如何防範 AI 數據污染?
對於如何防範數據污染,專家建議應從源頭做起:一是加強數據來源監管:制定明確的數據採集規範,確保來源安全可信;二是建立數據標籤體系:規範化處理不同數據集,提高可追溯性;第三是強化安全措施:採用嚴格的訪問控制與審計制度,避免惡意篡改;第四是持續清理修復:安全部門強調,應依規定定期清洗受污染數據,並建立模組化、可監測、可擴展的治理框架,確保長期質量。
此外,技術層面也需「人機結合」:自動化檢測工具與人工審查並行,對數據不一致、格式錯誤與語義衝突進行檢測處理,最大限度降低風險。 (編輯部)