語音變聲技術正在被人工智能推向全新階段。據英國網絡安全公司NCC Group 最新報告指出,AI 正使「語音深度偽造」(deepfake voice)技術邁入即時化時代,黑客可在通話過程中實時模仿他人聲音,讓受害者幾乎難以察覺真假,測試中詐騙成功率高達近100%。
報告顯示,這項被稱為「深度偽造語音釣魚(deepfake vishing)」的新型技術,透過AI模型學習特定人物的語音樣本後,能在自製的網頁介面上一鍵啟用,於通話中即時「轉譯」操作者的聲音。
NCC研究人員表示,該系統對硬件要求並不高,僅需中階筆電與一張NVIDIA RTX A1000顯示卡,即可在不到0.5秒延遲的情況下完成語音偽造,且幾乎聽不出停頓或不自然感。
實驗中,即便採用低品質錄音作為素材,生成結果仍能呈現極高擬真度。與以往需耗時訓練、只能製作預錄音檔的舊式技術不同,如今的AI變聲模型可在對話中即時依照語者情緒調整語速、語調與音色,讓「聲音身份盜用」門檻大幅降低。
與來電號碼偽造結合
NCC安全顧問 Pablo Alobera 表示,在多次經授權的受控測試中,當即時語音偽造與來電號碼偽造(Caller ID Spoofing)技術結合使用時,「幾乎每一次都成功欺騙測試對象」。
他指出,這意味著詐騙者不再需要預錄語音,只要擁有目標的短音樣本,即可在電話中以對方的口吻交談,讓對話「真實到足以突破所有防線」。Alobera強調:「這項突破性進展使傳統通話也成為潛在詐騙場域。」
視頻偽造仍落後於語音
相較於語音技術的飛速發展,實時視頻深度偽造(deepfake video)仍處於初步階段。
NCC指出,目前高品質視頻偽造仍依賴頂尖AI模型,如阿里的 WAN 2.2 Animate與谷歌的 Gemini Flash 2.5 Image,這些系統能將人物「移植」到逼真的動態場景中,但在表情一致性、情緒匹配與聲畫同步上仍存在明顯缺陷。
人工智能安全公司 The Circuit 創辦人 Trevor Wiseman 向《IEEE Spectrum》表示:「普通觀眾仍能透過語氣與表情不協調等細節察覺出異樣。」然而,他警告,這樣的「破綻期」恐怕不會太久。
專家促建新驗證機制
Wiseman指出,AI偽造技術已造成實際損失。他舉例說,有企業在招聘過程中被深度偽造影片欺騙,誤將筆電寄往假地址。「這些事件顯示,僅依賴語音或視頻通話已無法確認真實身份。」
專家警告,隨着AI驅動的冒充行為日益普及,現有的身份驗證方式亟需改革。Wiseman建議,可借鑑棒球比賽的「暗號」概念,設計結構化代碼或獨特信號作為遠程交流身份驗證機制。
他強調:「若不建立新的驗證體系,個人與企業都將暴露在日益複雜的AI社會工程攻擊之下。」 (編輯部)