AI即時變聲詐騙技術再突破　機構警告成功率近100%

AI即時變聲詐騙技術再突破　

機構警告成功率近100%

27/10/2025

3379

語音變聲技術正在被人工智能推向全新階段。據英國網絡安全公司NCC Group 最新報告指出，AI 正使「語音深度偽造」（deepfake voice）技術邁入即時化時代，黑客可在通話過程中實時模仿他人聲音，讓受害者幾乎難以察覺真假，測試中詐騙成功率高達近100%。

報告顯示，這項被稱為「深度偽造語音釣魚（deepfake vishing）」的新型技術，透過AI模型學習特定人物的語音樣本後，能在自製的網頁介面上一鍵啟用，於通話中即時「轉譯」操作者的聲音。

NCC研究人員表示，該系統對硬件要求並不高，僅需中階筆電與一張NVIDIA RTX A1000顯示卡，即可在不到0.5秒延遲的情況下完成語音偽造，且幾乎聽不出停頓或不自然感。

實驗中，即便採用低品質錄音作為素材，生成結果仍能呈現極高擬真度。與以往需耗時訓練、只能製作預錄音檔的舊式技術不同，如今的AI變聲模型可在對話中即時依照語者情緒調整語速、語調與音色，讓「聲音身份盜用」門檻大幅降低。

與來電號碼偽造結合

NCC安全顧問 Pablo Alobera 表示，在多次經授權的受控測試中，當即時語音偽造與來電號碼偽造（Caller ID Spoofing）技術結合使用時，「幾乎每一次都成功欺騙測試對象」。

他指出，這意味著詐騙者不再需要預錄語音，只要擁有目標的短音樣本，即可在電話中以對方的口吻交談，讓對話「真實到足以突破所有防線」。Alobera強調：「這項突破性進展使傳統通話也成為潛在詐騙場域。」

視頻偽造仍落後於語音

相較於語音技術的飛速發展，實時視頻深度偽造（deepfake video）仍處於初步階段。

NCC指出，目前高品質視頻偽造仍依賴頂尖AI模型，如阿里的 WAN 2.2 Animate與谷歌的 Gemini Flash 2.5 Image，這些系統能將人物「移植」到逼真的動態場景中，但在表情一致性、情緒匹配與聲畫同步上仍存在明顯缺陷。

人工智能安全公司 The Circuit 創辦人 Trevor Wiseman 向《IEEE Spectrum》表示：「普通觀眾仍能透過語氣與表情不協調等細節察覺出異樣。」然而，他警告，這樣的「破綻期」恐怕不會太久。

專家促建新驗證機制

Wiseman指出，AI偽造技術已造成實際損失。他舉例說，有企業在招聘過程中被深度偽造影片欺騙，誤將筆電寄往假地址。「這些事件顯示，僅依賴語音或視頻通話已無法確認真實身份。」

專家警告，隨着AI驅動的冒充行為日益普及，現有的身份驗證方式亟需改革。Wiseman建議，可借鑑棒球比賽的「暗號」概念，設計結構化代碼或獨特信號作為遠程交流身份驗證機制。

他強調：「若不建立新的驗證體系，個人與企業都將暴露在日益複雜的AI社會工程攻擊之下。」（編輯部）

機構警告成功率近100%